AutoTrainess: 언어 모델이 스스로 언어 모델을 개선하도록 가르치기
요약
AutoTrainess는 언어 모델이 스스로 사후 학습(post-training) 과정을 수행하여 모델을 개선할 수 있도록 설계된 에이전트 프레임워크입니다. 인간의 경험을 워크플로와 규칙으로 외재화하여 에이전트가 데이터 준비부터 학습, 평가까지 신뢰성 있게 수행하도록 돕습니다.
핵심 포인트
- 언어 모델이 스스로 학습 주기를 계획하고 실행하는 자율적 사후 학습 제안
- CLI 환경의 한계를 극복하기 위해 명시적인 워크플로와 제약 조건 제공
- PostTrainBench에서 기존 CLI 전용 베이스라인 성능을 상회하는 결과 달성
- 다양한 모델과 하네스 환경에서 일반화된 성능 향상 입증
프런티어 언어 모델 (LM) 에이전트들이 소프트웨어 엔지니어링 및 기타 장기적 과업 (long-horizon tasks)에서 점점 더 유능해지고 있음에도 불구하고, 언어 모델 (LMs)을 학습시키는 것은 여전히 매우 많은 인력을 필요로 하는 과정입니다. 핵심적인 과제는 자율적인 사후 학습 (post-training)이 단순히 코딩 문제만이 아니라는 점입니다. 이는 에이전트가 반복적으로 반복 주기 (iterations)를 계획하고, 벤치마크에 부합하는 데이터를 구축하며, 안정적인 학습 작업 (training jobs)을 실행하고, 체크포인트 (checkpoints)를 평가하며, 수 시간에 걸친 상호작용 동안 실험 상태를 유지할 것을 요구합니다. 우리는 계획, 데이터 준비, 학습, 평가 및 로깅을 위한 에이전트-컴퓨터 인터페이스 (agent-computer interfaces) 저장소로서 이러한 작업들을 노출하는 LM 에이전트인 AutoTrainess를 제시합니다. 에이전트가 불충분하게 정의된 액션 공간 (action space)을 가진 가공되지 않은 CLI 환경에서 작동하도록 내버려 두는 대신, AutoTrainess는 이전의 인간 경험을 명시적인 워크플로 (workflows), 규칙 및 실행 제약 조건으로 외재화하여 에이전트가 효과적이고 신뢰할 수 있는 학습 동작을 수행하도록 안내합니다. PostTrainBench에서 AutoTrainess는 CLI 전용 베이스라인 (baselines)을 지속적으로 능가하며, GPT-5.4 (Codex)를 사용하여 CLI 전용의 23.21점 대비 26.94점의 평균 점수를 달성했습니다. 또한 모델과 하네스 (harnesses) 전반에 걸쳐 일반화 성능을 보이며, DeepSeek-V4-Flash (OpenCode)의 점수를 12.13에서 19.58로 향상시켰습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기