본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 23. 00:42

TMax: 터미널 에이전트(Terminal Agents)를 위한 간단한 레시피

요약

TMax는 터미널 에이전트 성능 향상을 위한 강력한 오픈 강화학습(RL) 레시피를 제안합니다. 14,600개의 고품질 RL 데이터셋인 TMax-15k와 결과 중심 RL 학습법을 통해 소규모 오픈 모델로도 대규모 폐쇄형 모델에 근접하는 성능을 달성했습니다.

핵심 포인트

  • 14,600개의 구성적 파이프라인 기반 RL 데이터셋 TMax-15k 공개
  • GRPO를 포함한 단순 결과 중심(outcome-only) RL 레시피 활용
  • TMax-9B 모델이 10B 미만 오픈 모델 중 최고 수준의 성능 기록
  • 소규모 모델로도 Kimi K2.5 등 거대 모델에 근접하는 효율성 증명

TMax는 현재까지 터미널 에이전트(Terminal Agents)를 위한 가장 강력한 오픈 강화학습 (RL) 레시피로, 오픈 데이터 레시피를 프런티어(frontier) 수준에 더 가깝게 가져다줍니다. 저희는 두 가지를 공개합니다. 첫 번째는 TMax-15k로, 난이도와 다양성을 명시적으로 제어할 수 있는 구성적 파이프라인(compositional pipeline)을 통해 구축된 14,600개의 RL 환경 데이터셋입니다. 이는 전체 환경 데이터를 공개하는 차세대 대규모 오픈 터미널 데이터셋보다 2.5배 이상 큽니다. 두 번째는 단순한 결과 중심(outcome-only) RL 레시피(GRPO 및 몇 가지 안정성 수정 사항 포함)로, 이를 사용하여 2B에서 27B 규모의 오픈 모델 제품군을 학습시켰습니다.

TMax-9B는 Terminal Bench 2.0에서 27.2%를 달성했습니다. 공식 Terminal Bench 설정 하에서 이는 저희가 알고 있는 10B 미만의 모델 중 가장 강력한 오픈 웨이트 (open-weights) 모델입니다. 이는 이전 연구의 32B 터미널 에이전트들을 능가하며, Claude Haiku 4.5 (29.8%)와 같은 폐쇄형 (closed) 모델에 근접합니다. 동일한 레시피를 확장하면, TMax-27B는 42.7%로 향상되어, 1T 파라미터 규모의 Kimi K2.5 (43.2%)와 같이 자기보다 10~40배 큰 모델들에 근접합니다.

HuggingFace : https://huggingface.co/collections/allenai/tmax
GitHub : https://github.com/hamishivi/tmax
Paper : https://github.com/hamishivi/tmax/blob/master/assets/paper.pdf
Blog : https://wai-org.com/blog/tmax/

#JustSharing. 이것으로 무엇을 해야 할지 모르겠습니다.
submitted by /u/pmttyji
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0