arXiv논문2026. 06. 30. 13:32

파라미터가 아닌 지평을 확장하기: 35B 에이전트로 조 단위 파라미터급 성능 달성

요약

35B MoE 모델인 Agents-A1을 통해 에이전트 지평을 확장하여 조 단위 파라미터급 성능을 달성하는 연구를 소개합니다. 장기 지평 궤적과 이질적 에이전트 능력을 결합한 3단계 학습 레시피를 통해 1T 모델과 대등한 성능을 구현했습니다.

핵심 포인트

35B MoE 모델로 1T 파라미터급 성능 달성
장기 지평 지식-행동 인프라 구축 및 45K 토큰 궤적 생성
다중 교사 도메인 라우팅 온-폴리시 증류 기법 제안
SEAL-0, IFBench 등 주요 벤치마크에서 선도적 결과 기록

우리는 에이전트 지평 (agent horizon)을 확장함으로써 조 단위 파라미터 (trillion-parameter) 수준의 성능에 도달하는 35B Mixture-of-Experts (MoE) 에이전트 모델인 Agents-A1을 소개합니다. 우리는 두 가지 관점에서 에이전트 지평 확장 (agent-horizon scaling)을 조사합니다: 장기 지평 궤적 (long-horizon trajectories)의 확장과 이질적인 에이전트 능력 (heterogeneous agent abilities)의 확장입니다. 이 목표를 지원하기 위해, 우리는 외부 지식, 행동 (actions), 관찰 (observations), 그리고 검증기 (verifier) 결과물을 연결하여 평균 길이 45K 토큰의 에이전트 궤적을 생성하는 장기 지평 지식-행동 인프라를 구축합니다. 이를 바탕으로, 우리는 3단계 레시피를 통해 Agents-A1을 학습시킵니다. 첫째, 베이스 모델을 광범위한 에이전트 행동에 정렬시키기 위해 전 영역 지도 미세 조정 (full-domain supervised fine-tuning)을 수행합니다. 둘째, 각 도메인의 전문 지식을 포착하기 위해 도메인 수준의 교사 모델 (teacher models)을 학습시킵니다. 셋째, 서로 다른 도메인 간의 지식 전달 효율을 높이기 위해 돌출된 어휘 정렬 (salient vocabulary alignment)을 포함한 다중 교사 도메인 라우팅 온-폴리시 증류 (multi-teacher domain-routed on-policy distillation)를 제안하며, 이를 통해 6개의 이질적인 도메인을 하나의 배포 가능한 학생 모델 (student model)로 통합합니다. Agents-A1은 장기 지평 에이전트 벤치마크에서 강력하고 광범위한 성능을 달성합니다. Kimi-K2.6 및 DeepSeek-V4-pro와 같은 1T 파라미터 모델과 비교했을 때, Agents-A1은 SEAL-0 (56.4), IFBench (80.6), HiPhO (46.4), FrontierScience-Olympiad (79.0), 그리고 MolBench-Bind (56.8)에서 선도적인 결과를 달성하였으며, SciCode (44.3), HLE (47.6), BrowseComp (75.5)에서도 매우 경쟁력 있는 성능을 유지합니다. 우리는 이 연구가 커뮤니티에 장기 지평 작업에서 1T 모델의 성능에 도달하거나 필적할 수 있는 35B 에이전트를 사용하여 지평을 확장하는 실질적인 경로를 제공하기를 바랍니다.

AI 자동 생성 콘텐츠

원문 바로가기

파라미터가 아닌 지평을 확장하기: 35B 에이전트로 조 단위 파라미터급 성능 달성

요약

핵심 포인트

댓글