arXiv논문2026. 06. 09. 12:49

SearchSwarm: 장기적 심층 연구를 위한 에이전트형 LLM의 위임 지능(Delegation Intelligence)을 향하여

요약

LLM의 유한한 컨텍스트 창 문제를 해결하기 위해 작업을 분해하고 서브 에이전트에게 위임하는 '위임 지능' 연구를 소개합니다. 합성 데이터를 활용한 SFT를 통해 SearchSwarm-30B-A3B 모델을 개발했으며, 심층 연구 작업에서 뛰어난 성능을 입증했습니다.

핵심 포인트

컨텍스트 예산 보존을 위한 에이전트 위임 패러다임 제안
위임 지능 학습을 위한 고품질 합성 데이터 및 하네스 설계
SearchSwarm-30B-A3B 모델의 BrowseComp 벤치마크 우수 성과
하네스, 모델 가중치 및 학습 데이터의 오픈 소스 공개 예정

대규모 언어 모델(Large language models, LLM)은 컨텍스트(context) 요구 사항이 무한히 증가할 수 있는 복잡하고 장기적인(long-horizon) 실세계 작업을 처리할 것으로 점점 더 기대를 받고 있지만, 모델의 컨텍스트 창(context windows)은 본질적으로 유한합니다. 최근 연구에서는 메인 에이전트(main agent)가 작업을 분해하고 서브 에이전트(subagents)에게 하위 작업(subtasks)을 전달하며, 서브 에이전트는 실행 후 요약된 결과만을 반환하여 메인 에이전트의 컨텍스트 예산(context budget)을 보존하는 패러다임을 탐구합니다. 그러나 이를 잘 수행하기 위해서는 위임 지능(delegation intelligence), 즉 복잡한 작업을 분해하고, 언제 무엇을 위임할지 결정하며, 반환된 결과를 진행 중인 워크플로(workflow)에 통합하는 능력이 필요합니다. 이러한 능력을 위한 학습 데이터는 자연적으로 발생하는 텍스트에서는 희귀하며, 저희가 알기로는 이러한 데이터를 합성하고 모델이 이 능력을 습득하도록 학습시키는 방법은 오픈 소스 커뮤니티에서 여전히 미개척 상태로 남아 있습니다. 이 격차를 해소하기 위해, 저희는 대표적인 장기적 에이전트 작업인 심층 연구(deep research)를 목표로 하는 예비 탐색을 제시합니다. 구체적으로, 저희는 모델이 고품질의 작업 분해 및 위임으로 향하도록 안내하는 동시에, 서브 에이전트가 메인 에이전트의 워크플로를 지원할 수 있도록 결과를 적절히 반환하도록 제한하는 하네스(harness)를 설계합니다. 하네스에 의해 유도된 궤적(trajectories)은 올바른 위임 결정을 자연스럽게 인코딩하며, 저희는 이를 지도 미세 조정(supervised fine-tuning, SFT) 데이터로 사용하여 모델 가중치(weights)에 위임 지능을 내재화합니다. 그 결과물인 SearchSwarm-30B-A3B 모델은 BrowseComp에서 68.1, BrowseComp-ZH에서 73.3을 달성하였으며, 이는 유사한 규모의 모든 모델 중 가장 우수한 결과입니다. 저희는 향후 연구를 촉진하기 위해 하네스, 모델 가중치 및 학습 데이터를 공개할 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

SearchSwarm: 장기적 심층 연구를 위한 에이전트형 LLM의 위임 지능(Delegation Intelligence)을 향하여

요약

핵심 포인트

댓글