MECoBench: 체화된 환경(Embodied Environments)에서의 멀티모달 에이전트 협업에 관한 체계적 연구
요약
멀티모달 에이전트의 체화된 환경 내 협업 능력을 평가하기 위한 새로운 벤치마크인 MECoBench를 제안합니다. 다양한 작업과 협업 모드를 통해 모델 간의 통신, 조정 복잡성, 그리고 강건성을 체계적으로 분석합니다.
핵심 포인트
- 멀티모달 체화된 협력 평가를 위한 MECoBench 벤치마크 공개
- 협업의 이점은 협업 이득과 조정 복잡성 사이의 균형에 의존함
- 효율적인 협업을 위해 모델 역량에 맞는 최적의 통신 모드 필요
- 협업이 노이즈 및 탐색 조건 하에서 에이전트의 강건성을 향상시킴
최근 멀티모달 거대 언어 모델(MLLMs)은 체화된 에이전트(embodied agents)로서 강력한 잠재력을 가지고 있지만, 시각적으로 근거가 있는(visually grounded) 환경에서 협업하는 능력은 여전히 충분히 탐구되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 다양한 실세계 작업, 두 가지 협업 구조, 그리고 세 가지 협업 모드를 아우르는 평가 플랫폼을 갖춘 멀티모달 체화된 협력 벤치마크인 MECoBench를 소개합니다. 다양한 MLLMs에 대한 광범위한 실험을 통해 우리는 세 가지 주요 발견을 요약합니다: (i) 협업은 일반적으로 체화된 작업 완료를 향상시키지만, 그 이점은 협업을 통한 이득과 조정 복잡성(coordination complexity) 사이의 균형에 달려 있습니다. (ii) 통신(Communication)은 협업 이득에 필수적이며, 최적의 협업 모드는 팀 규모와 모델 역량에 따라 달라집니다. (iii) 또한, 협업은 노이즈가 있는 사전 정보(noisy priors) 및 탐색(exploration) 조건 하에서 강건성(robustness)을 향상시킵니다. 일반적으로, MECoBench는 멀티모달 체화된 협업의 메커니즘과 한계를 이해하기 위한 체계적인 테스트베드를 제공합니다. 코드와 데이터셋은 https://github.com/q-i-n-g/MECoBench 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기