arXiv논문2026. 04. 29. 12:36

Recursive Multi-Agent Systems

요약

본 논문은 잠재 상태를 반복적으로 정제하여 추론을 심화시키는 재귀적/루프형 언어 모델의 원리를 다중 에이전트 시스템(MAS)으로 확장한 'RecursiveMAS' 프레임워크를 제안합니다. RecursiveMAS는 통합된 잠재 공간에서 여러 이질적인 에이전트를 연결하고 협업 루프를 형성하여, 에이전트 간 잠재 상태 전이를 가능하게 합니다. 또한, 공유 경계 기반 크레딧 할당을 위한 내-외 루프 학습 알고리즘을 개발했으며, 다양한 벤치마크에서 기존 MAS 대비 높은 정확도 향상과 효율성 개선을 입증했습니다.

핵심 포인트

재귀적/루프형 언어 모델의 원리를 다중 에이전트 시스템(MAS)에 적용하여 'RecursiveMAS' 프레임워크를 구축함.
통합된 잠재 공간과 경량 RecursiveLink 모듈을 사용하여 이질적인 에이전트 간 협업 루프 및 잠재 상태 전이를 구현함.
공유 경계 기반 크레딧 할당을 위한 내-외 루프 학습 알고리즘을 개발하여 시스템의 반복적 공동 최적화를 가능하게 함.
수학, 과학, 의학 등 9개 벤치마크에서 평가 결과, 기존 MAS 대비 평균 정확도 8.3% 향상 및 토큰 사용량 대폭 감소를 달성함.

잠재 상태 (latent states) 를 반복적으로 정제하여 추론을 심화시키는 방식으로, 최근 강화학습 (RL) 과 같은 새로운 확장 축으로 등장한 재귀적 또는 루프형 언어 모델에 대해 논의합니다. 우리는 이러한 확장 원리를 단일 모델에서 다중 에이전트 시스템으로 확장하고, '에이전트 협업 자체가 재귀를 통해 확장될 수 있는가?'라는 질문을 던집니다. 이를 위해 전체 시스템을 통합된 잠재 공간 (unified latent-space) 의 재귀적 계산으로 표현하는 RecursiveMAS 라는 재귀적 다중 에이전트 프레임워크를 소개합니다. RecursiveMAS 는 경량 RecursiveLink 모듈을 통해 이질적인 에이전트를 협업 루프로 연결하여, 분포 내 잠재 사고 생성 (in-distribution latent thoughts generation) 과 에이전트 간 잠재 상태 전이 (cross-agent latent state transfer) 를 가능하게 합니다. 우리 프레임워크를 최적화하기 위해 재귀 라운드 (recursion rounds) 를 거쳐 공유된 경계 기반 크레딧 할당 (shared gradient-based credit assignment) 를 통한 전체 시스템의 반복적 공동 최적화를 위한 내-외 루프 학습 알고리즘 (inner-outer loop learning algorithm) 을 개발했습니다. 실행 시간 복잡도와 학습 동학에 대한 이론적 분석은 RecursiveMAS 가 표준 텍스트 기반 MAS 보다 효율적이며, 재귀적 훈련 중 안정적인 기울기를 유지함을 입증합니다. 경험적으로, 우리는 수학적 문제 해결, 과학, 의학, 검색, 코드 생성을 아우르는 9 개의 벤치마크에서 RecursiveMAS 를 4 가지 대표적인 에이전트 협업 패턴 하에 구현하여 평가했습니다. 고급 단일/다중 에이전트 및 재귀 계산 기반선 (baselines) 과 비교했을 때, RecursiveMAS 는 일관되게 평균 정확도 향상률 8.3% 와 함께 엔드투엔드 추론 속도 향상 1.2$ imes$~2.4$ imes$, 그리고 토큰 사용량 감소 34.6%~75.6% 를 달성했습니다. 코드와 데이터는 https://recursivemas.github.io 에서 제공됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

Recursive Multi-Agent Systems

요약

핵심 포인트

댓글