언어 에이전트의 개방형 다중 에이전트 협업(Open-Ended Multi-Agent Coordination) 벤치마킹
요약
언어 모델 에이전트의 장기적 협업 능력을 평가하기 위한 새로운 벤치마크인 $alem$을 소개합니다. JAX 기반의 이 환경은 탐험, 제작, 거래 등 복잡한 생존 과제를 통해 LLM의 협업 역량을 측정하며, 개별 작업 능력과 협업 능력이 별개임을 입증합니다.
핵심 포인트
- 개방형 다중 에이전트 협업 벤치마크 $alem$ 제안
- LLM의 개별 작업 역량이 협업 역량을 보장하지 않음 확인
- 통신이 협업에 가장 핵심적인 요소임을 식별
- Gemini와 GPT 모델 간의 협업 양상 차이 분석
언어 모델(Language Models)이 자율 에이전트(Autonomous Agents)로 점점 더 많이 배치됨에 따라, 이들은 개방형 상호작용 작업(Open-ended Interactive Tasks)에서 장기적인 관점(Long Horizons)으로 타인과 협업해야 합니다. 그러나 기존의 평가 방식은 이러한 요구 사항들을 동시에 테스트하는 경우가 드물며, 대신 단일 에이전트 작업(Single-agent Tasks), 짧은 상호작용(Short Interactions), 또는 고도로 구조화된 다중 에이전트 설정(Highly Structured Multi-agent Settings)을 강조해 왔습니다. 우리는 Craftax와 유사한 역학(Dynamics)을 기반으로 구축된, JAX 기반의 개방형 다중 에이전트 협업(Open-ended Multi-agent Coordination) 벤치마크인 $alem$을 소개합니다. $alem$은 절차적으로 생성된 협업 작업(Coordination Tasks), 소프트 전문화(Soft Specialisation), 통신(Communication), 그리고 제어 가능한 협업 난이도를 탐험(Exploration), 제작(Crafting), 거래(Trading), 전투(Combat)가 포함된 장기 생존 세계(Long-horizon Survival World)에 내장합니다. 우리는 훈련된 다중 에이전트 강화학습(MARL) 에이전트를 참조점으로 삼아, $13$개의 현대적 LLM을 동질적 팀(Homogeneous Teams) 내에서 제로샷(Zero-shot)으로 평가합니다. 현재의 LLM 에이전트들은 평균적으로 약 6%의 정규화된 보상(Normalised Return)만을 기록하며 $alem$을 해결하기에는 여전히 갈 길이 멀지만, 그 실패 양상은 균일하지 않습니다. 가장 어려운 협업 설정에서, 제로샷 Gemini-3.1-Pro-High는 10억 단계(One Billion Steps) 동안 훈련된 MARL 에이전트에 근접하는 성능을 보이는 반면, GPT-5.4-High는 강력한 기본 작업 보상(Base-task Reward)을 달성하지만 협업 보상(Coordination Reward)은 훨씬 낮게 나타납니다. 이러한 대조는 개별 작업 역량(Individual Task Competence)이 협업 역량(Coordination Competence)을 의미하지 않음을 보여줍니다. 절제 연구(Ablations) 결과, 통신(Communication)이 협업에 가장 크게 기여하는 요소인 반면, 메모리(Memory)와 추론(Reasoning)은 다단계 계획(Multi-step Plans)을 유지하는 데 사용될 때 도움이 되는 것으로 나타났습니다. 전반적으로 우리의 결과는 협업이 단일 에이전트 능력과는 별개인, 최첨단(Frontier) LLM 에이전트의 뚜렷한 병목 현상(Bottleneck)임을 식별합니다. $alem$은 이 병목 현상을 측정 가능하게 만들며, 통신하고, 역할을 할당하며, 공유된 계획을 실행하는 에이전트를 개발하기 위한 통제된 테스트베드(Testbed)를 제공합니다. 코드는 https://github.com/alem-world/alem-env 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기