arXiv논문2026. 06. 23. 21:16

Tmax: 터미널 에이전트를 위한 간단한 레시피

요약

터미널 에이전트의 성능 향상을 위한 새로운 오픈 RL 레시피인 Tmax를 소개합니다. 9B 파라미터 모델로 Terminal-Bench 2.0에서 높은 성능을 달성했으며, 데이터 생성 기법과 대규모 데이터셋을 함께 공개합니다.

핵심 포인트

9B 모델로 기존 대형 모델을 능가하는 터미널 벤치마크 성능 달성
난이도 조절, 페르소나, 검증기 다양화를 결합한 새로운 데이터 생성 체계 제안
기존 데이터셋보다 2.5배 큰 대규모 터미널 데이터셋 오픈 소스 공개
RL 및 SFT 학습을 위한 강력한 오픈 소스 베이스라인 제공

터미널을 사용하는 에이전트(Terminal-using agents)는 언어 모델(LMs)의 가장 인기 있는 다운스트림 애플리케이션으로 빠르게 자리 잡았습니다. 이러한 유행에도 불구하고, 어려운 벤치마크, 데이터 부족, 그리고 간단한 베이스라인 레시피의 부재로 인해 이 모델들에 대한 강화학습(RL) 기반 학습을 조사한 학술적 연구는 상대적으로 적었습니다. 우리는 현재까지 터미널 에이전트를 위한 가장 강력한 오픈 RL 레시피인 Tmax를 선보이며, 오픈 데이터 레시피를 프런티어(frontier) 수준에 더 가깝게 가져옵니다. 우리의 레시피는 단순하지만, 단 9B 파라미터로 Terminal-Bench 2.0에서 27%를 달성하며 이전 연구의 훨씬 더 큰 모델들을 능가합니다. 구체적으로, 우리는 난이도 조절, 페르소나(personas), 검증기 다양화(verifier diversification)를 결합한 새로운 분류 체계(taxonomy)를 사용하여 데이터를 생성하며, 이를 통해 RL 및 SFT 학습을 위한 방대한 양의 터미널 환경을 저렴하게 생성할 수 있습니다. 우리는 이전에 공개된 터미널 에이전트 데이터셋보다 2.5배 이상 큰 터미널 데이터셋을 오픈 소스로 공개합니다. 그런 다음, 우리는 단순한 결과 기반(outcome-only) 레시피를 사용하여 우리의 데이터로 오픈 웨이트(open-weight) 모델을 RL로 학습시킵니다. 우리는 터미널 에이전트에 대한 향후 오픈 학술 연구를 위한 강력한 베이스라인으로서 데이터, 모델 및 코드를 https://github.com/hamishivi/tmax 에 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Tmax: 터미널 에이전트를 위한 간단한 레시피

요약

핵심 포인트

댓글