Terminal-World: 에이전트 기술을 통한 터미널 에이전트 환경의 확장

터미널 에이전트 (Terminal agents)는 명령줄 환경 (command-line environments)에서 직접 작업을 수행할 수 있는 능력을 통해 대규모 언어 모델 (Large Language Models, LLMs)을 확장하지만, 이들의 발전은 고품질 학습 데이터의 부족으로 인해 병목 현상을 겪고 있습니다. 기존의 접근 방식은 인간이 정의한 시드 (seeds)나 GitHub 저장소와 같은 부분적인 소스로부터 부트스트랩 (bootstrap)하여 하나의 구성 요소를 인스턴스화한 후 나머지를 완성하는 방식을 취합니다. 이는 좁은 시드 분포에 국한된 작업, 작업 의미론 (task semantics)과 일치하지 않는 환경, 그리고 가이드 없는 탐색 (unguided exploration)으로 인한 비효율적인 궤적 (trajectories)을 생성합니다. 이러한 한계를 해결하기 위해, 우리는 에이전트 기술 (agent skills)을 핵심 합성 프리미티브 (synthesis primitive)로 사용하는 완전 자동화 파이프라인인 Terminal-World를 소개합니다. 이 기술은 무엇을 달성할 것인지, 언제 적용할 것인지 (전제 조건 및 환경 상태), 그리고 어떻게 실행할 것인지를 공동으로 인코딩하여 작업 지침 (task instructions), 환경, 그리고 교사 궤적 (teacher trajectories)이 함께 도출될 수 있도록 합니다. 합성 공간을 더욱 확장하기 위해, Terminal-World는 다중 역할 및 교차 도메인 작업 합성을 위해 기술을 기술 팀 (skill teams)과 기술 그래프 (skill graphs)로 구성합니다. 이 파이프라인을 사용하여 우리는 5,723개의 학습 환경을 구축하고 Terminal-World-8B/14B/32B를 학습시켰으며, 6개의 벤치마크에서 평가한 결과 Terminal-World 시리즈가 터미널 에이전트 베이스라인 (terminal-agent baselines)을 일관되게 능가함을 확인했습니다. 특히, 동일한 교사 모델 (teacher model)을 사용하고 학습 데이터의 단 1.2%만을 사용했음에도 불구하고, Terminal-World-32B는 Terminal-Bench 2.0에서 Nemotron-Terminal-32B를 Pass@1 기준 +4.5 (31.5) 차이로 앞질렀으며, 43.8의 Pass@3를 달성했습니다.

Insights

Terminal-World: 에이전트 기술을 통한 터미널 에이전트 환경의 확장

요약

핵심 포인트

댓글

신경 연산자 기반 위상 정보 활용 진화 전략을 이용한 편미분 방정식 제약 최적화

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

신경 연산자 기반 위상 정보 활용 진화 전략을 이용한 편미분 방정식 제약 최적화

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리