Terminal-World: 에이전트 기술을 통한 터미널 에이전트 환경의 확장
요약
Terminal-World는 고품질 학습 데이터 부족 문제를 해결하기 위해 에이전트 기술을 활용하여 터미널 에이전트 환경을 자동 생성하는 파이프라인입니다. 이 시스템은 작업 지침, 환경, 교사 궤적을 동시에 도출하며, 기술 팀과 기술 그래프를 통해 다중 역할 및 교차 도메인 작업을 합성합니다. 실험 결과, Terminal-World-32B 모델은 매우 적은 학습 데이터만으로도 기존 벤치마크에서 뛰어난 성능을 기록하며 베이스라인을 압도했습니다.
핵심 포인트
- 기존 터미널 에이전트 학습의 병목 현상인 고품질 데이터 부족 문제를 자동화된 합성 파이프라인으로 해결
- 에이전트 기술(agent skills)을 핵심 프리미티브로 사용하여 작업 지침, 환경, 교사 궤적을 공동 인코딩
- 기술 팀(skill teams)과 기술 그래프(skill graphs)를 통해 복잡한 다중 역할 및 교차 도메인 작업 생성 가능
- Terminal-World-32B는 학습 데이터의 1.2%만 사용하고도 Terminal-Bench 2.0에서 Nemotron-Terminal-32B를 크게 앞서는 성능을 입증
터미널 에이전트 (Terminal agents)는 명령줄 환경 (command-line environments)에서 직접 작업을 수행할 수 있는 능력을 통해 대규모 언어 모델 (Large Language Models, LLMs)을 확장하지만, 이들의 발전은 고품질 학습 데이터의 부족으로 인해 병목 현상을 겪고 있습니다. 기존의 접근 방식은 인간이 정의한 시드 (seeds)나 GitHub 저장소와 같은 부분적인 소스로부터 부트스트랩 (bootstrap)하여 하나의 구성 요소를 인스턴스화한 후 나머지를 완성하는 방식을 취합니다. 이는 좁은 시드 분포에 국한된 작업, 작업 의미론 (task semantics)과 일치하지 않는 환경, 그리고 가이드 없는 탐색 (unguided exploration)으로 인한 비효율적인 궤적 (trajectories)을 생성합니다. 이러한 한계를 해결하기 위해, 우리는 에이전트 기술 (agent skills)을 핵심 합성 프리미티브 (synthesis primitive)로 사용하는 완전 자동화 파이프라인인 Terminal-World를 소개합니다. 이 기술은 무엇을 달성할 것인지, 언제 적용할 것인지 (전제 조건 및 환경 상태), 그리고 어떻게 실행할 것인지를 공동으로 인코딩하여 작업 지침 (task instructions), 환경, 그리고 교사 궤적 (teacher trajectories)이 함께 도출될 수 있도록 합니다. 합성 공간을 더욱 확장하기 위해, Terminal-World는 다중 역할 및 교차 도메인 작업 합성을 위해 기술을 기술 팀 (skill teams)과 기술 그래프 (skill graphs)로 구성합니다. 이 파이프라인을 사용하여 우리는 5,723개의 학습 환경을 구축하고 Terminal-World-8B/14B/32B를 학습시켰으며, 6개의 벤치마크에서 평가한 결과 Terminal-World 시리즈가 터미널 에이전트 베이스라인 (terminal-agent baselines)을 일관되게 능가함을 확인했습니다. 특히, 동일한 교사 모델 (teacher model)을 사용하고 학습 데이터의 단 1.2%만을 사용했음에도 불구하고, Terminal-World-32B는 Terminal-Bench 2.0에서 Nemotron-Terminal-32B를 Pass@1 기준 +4.5 (31.5) 차이로 앞질렀으며, 43.8의 Pass@3를 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기