본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 21:16

Tmax: 터미널 에이전트를 위한 간단한 레시피

요약

터미널 에이전트의 성능 향상을 위한 새로운 오픈 RL 레시피인 Tmax를 소개합니다. 9B 파라미터 모델로 Terminal-Bench 2.0에서 높은 성능을 달성했으며, 데이터 생성 기법과 대규모 데이터셋을 함께 공개합니다.

핵심 포인트

  • 9B 모델로 기존 대형 모델을 능가하는 터미널 벤치마크 성능 달성
  • 난이도 조절, 페르소나, 검증기 다양화를 결합한 새로운 데이터 생성 체계 제안
  • 기존 데이터셋보다 2.5배 큰 대규모 터미널 데이터셋 오픈 소스 공개
  • RL 및 SFT 학습을 위한 강력한 오픈 소스 베이스라인 제공

터미널을 사용하는 에이전트(Terminal-using agents)는 언어 모델(LMs)의 가장 인기 있는 다운스트림 애플리케이션으로 빠르게 자리 잡았습니다. 이러한 유행에도 불구하고, 어려운 벤치마크, 데이터 부족, 그리고 간단한 베이스라인 레시피의 부재로 인해 이 모델들에 대한 강화학습(RL) 기반 학습을 조사한 학술적 연구는 상대적으로 적었습니다. 우리는 현재까지 터미널 에이전트를 위한 가장 강력한 오픈 RL 레시피인 Tmax를 선보이며, 오픈 데이터 레시피를 프런티어(frontier) 수준에 더 가깝게 가져옵니다. 우리의 레시피는 단순하지만, 단 9B 파라미터로 Terminal-Bench 2.0에서 27%를 달성하며 이전 연구의 훨씬 더 큰 모델들을 능가합니다. 구체적으로, 우리는 난이도 조절, 페르소나(personas), 검증기 다양화(verifier diversification)를 결합한 새로운 분류 체계(taxonomy)를 사용하여 데이터를 생성하며, 이를 통해 RL 및 SFT 학습을 위한 방대한 양의 터미널 환경을 저렴하게 생성할 수 있습니다. 우리는 이전에 공개된 터미널 에이전트 데이터셋보다 2.5배 이상 큰 터미널 데이터셋을 오픈 소스로 공개합니다. 그런 다음, 우리는 단순한 결과 기반(outcome-only) 레시피를 사용하여 우리의 데이터로 오픈 웨이트(open-weight) 모델을 RL로 학습시킵니다. 우리는 터미널 에이전트에 대한 향후 오픈 학술 연구를 위한 강력한 베이스라인으로서 데이터, 모델 및 코드를 https://github.com/hamishivi/tmax 에 공개합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0