Reddit요약2026. 06. 18. 12:20

오픈 웨이트(Open weights)만으로는 부족합니다: 연구와 더 나은 알고리즘을 위해 오픈 트레이닝 프레임워크가 필요합니다

요약

오픈 웨이트를 넘어 투명한 연구를 위한 오픈 트레이닝 프레임워크 FeynRL을 소개합니다. LLM, VLM, 에이전트의 강화학습(RL) 사후 학습 과정을 가시화하고 엔드 투 엔드로 이해할 수 있도록 설계되었습니다.

핵심 포인트

단순 모델 공개를 넘어 투명한 훈련 프레임워크의 필요성 강조
FeynRL은 RL 사후 학습의 복잡한 시스템을 명시적으로 관리
데이터 로딩부터 최적화까지 전체 훈련 루프의 가시성 제공
SFT, DPO 및 다양한 분산 학습 환경 지원

오픈 웨이트(Open weights)는 중요하고 결정적이지만, 그것만으로는 충분하지 않습니다. 만약 우리가 오픈 ML(Machine Learning) 및 AI 연구를 발전시키고자 한다면, 단순히 작업을 실행하는 것 이상의 코드베이스인 오픈 트레이닝 프레임워크(open training frameworks)도 필요합니다. 프레임워크는 연구자, 엔지니어, 실무자들이 숨겨진 시스템과 싸우는 대신 새로운 알고리즘을 구축할 수 있도록 훈련 과정을 가시적이고, 이해 가능하며, 수정 가능하게 만들어야 합니다. 이것이 제가 LLM(Large Language Models), VLM(Vision-Language Models), 그리고 에이전트(agents)의 RL(Reinforcement Learning, 강화학습) 사후 학습(post-training)을 위해 구축한 프레임워크인 FeynRL(발음은 “FineRL”)의 동기였습니다. RL을 제대로 작동하게 만드는 것은 이미 어렵습니다. LLM, VLM, 에이전트와 함께라면 상황은 더욱 복잡해집니다: 롤아웃 엔진(rollout engines), 보상 계산(reward computation), 분산 학습(distributed training), 가중치 동기화(weight syncing), 신용 할당 문제(credit assignment problems), 장기적 행동(long-horizon behavior), 그리고 조용히 모든 것을 망가뜨릴 수 있는 수많은 작은 구현 세부 사항들이 존재합니다. FeynRL의 핵심 아이디어는 간단합니다: 알고리즘은 알고리즘으로 남아야 하고, 시스템은 시스템으로 남아야 하며, 연구자/엔지니어/실무자는 며칠 또는 몇 주를 소비하지 않고도 전체 훈련 루프(training loop)를 엔드 투 엔드(end-to-end)로 이해할 수 있어야 한다는 것입니다. GitHub: https://github.com/FeynRL-project/FeynRL 이 프레임워크는 데이터 로딩(data loading)과 롤아웃 생성(rollout generation)부터 보상 계산(reward computation), 손실 함수 구성(loss construction), 최적화(optimization), 그리고 평가(evaluation)에 이르기까지 프레임워크를 명시적으로 유지하도록 설계되었습니다. 목표는 복잡하고 숨겨진 시스템을 거치지 않고도 새로운 알고리즘, 학습 레시피(training recipes), 보상 설계(reward designs), 롤아웃 전략(rollout strategies), 그리고 최적화 방법(optimization methods)을 더 쉽게 개발할 수 있도록 하는 것입니다. 현재 이 프레임워크는 vllm과 llm 모두에 대해 SFT(Supervised Fine-Tuning), DPO(Direct Preference Optimization), 그리고 RL 스타일의 사후 학습(post-training) 예시를 포함하고 있으며, 단일 GPU, 멀티 GPU 및 클러스터(cluster) 설정을 지원합니다. 피드백, 이슈, 제안을 환영합니다. 또한, 사람들이 RL 사후 학습 인프라에서 여전히 너무 숨겨져 있다고 느끼거나, 디버깅하기 어렵거나, 수정하기 어렵다고 생각하는 부분이 무엇인지 궁금합니다.

AI 자동 생성 콘텐츠

원문 바로가기

오픈 웨이트(Open weights)만으로는 부족합니다: 연구와 더 나은 알고리즘을 위해 오픈 트레이닝 프레임워크가 필요합니다

요약

핵심 포인트

댓글