MineExplorer: Minecraft 내 MLLM 에이전트의 오픈 월드 탐사 능력 평가
요약
Minecraft 환경에서 MLLM 에이전트의 오픈 월드 탐사 능력을 평가하기 위한 새로운 벤치마크인 MineExplorer를 제안합니다. 멀티 에이전트 합성 워크플로를 통해 신뢰도 높은 멀티홉 과업을 생성하며, 기존 모델들이 긴 궤적의 복잡한 과업 수행에서 한계를 보임을 입증했습니다.
핵심 포인트
- MineExplorer 벤치마크: Minecraft 기반 MLLM 탐사 능력 평가
- 멀티 에이전트 합성 워크플로를 통한 고품질 과업 생성
- 긴 궤적과 숨겨진 전제 조건이 포함된 멀티홉 과업의 난이도 확인
- 모델 크기나 사고 모드가 반드시 성능 향상으로 직결되지 않음
멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 인지 (perception), 추론 (reasoning), 그리고 행동 생성 (action generation) 측면에서 강력한 능력을 보여주었습니다. 그러나 역동적인 오픈 월드 (open worlds)에서 탐사를 지속하는 능력은 여전히 불분명합니다. 기존의 Embodied 및 게임 기반 벤치마크 (benchmarks)는 상호작용을 단기적 과업 (short-horizon tasks)으로 압축하거나, 성공 여부를 특정 도메인의 게임 메커니즘과 얽히게 만드는 경우가 많습니다. 본 논문에서는 Minecraft 내 MLLM 에이전트의 오픈 월드 탐사 능력을 평가하기 위한 MineExplorer 벤치마크를 소개합니다. 우리는 먼저 일반적인 오픈 월드 추론을 더 잘 반영하기 위해, 해결책이 Minecraft 특화 지식에 과도하게 의존하는 원자적 과업 (atomic tasks)들을 필터링합니다. 그 다음, ReAct 스타일의 능력 공식화 (capability formulation)를 중심으로 벤치마크를 구성하고, 원자적 과업들을 암시적인 멀티홉 과업 (multi-hop tasks)으로 조합합니다. 더욱 신뢰할 수 있는 인스턴스 (instances)를 구축하기 위해, MineExplorer는 과업 그래프 (task graphs), 샌드박스 장면 (sandbox scenes), 그리고 규칙 기반 마일스톤 평가기 (rule-based milestone evaluators)를 공동으로 설계하는 멀티 에이전트 합성 워크플로 (multi-agent synthesis workflow)를 사용합니다. 인간 평가 결과, 멀티 에이전트 합성 워크플로는 단일 에이전트 베이스라인 (single-agent baseline)보다 현저히 더 신뢰할 수 있는 인스턴스를 생성하는 것으로 나타났습니다. 고급 MLLM 에이전트를 이용한 실험에 따르면, 강력한 모델들이 많은 싱글홉 (single-hop) 과업은 처리할 수 있지만, 더 긴 궤적 (trajectories)에 걸쳐 숨겨진 전제 조건들을 조정해야 할 때는 성능이 급격히 저하되므로 오픈 월드 탐사는 여전히 도전적인 과제로 남아 있습니다. 추가 분석 결과, 과업 난이도는 에이전트의 완료율을 따르며, 더 큰 모델이나 사고 모드 (thinking modes)가 반드시 더 나은 성능으로 직결되지는 않는다는 것을 발견했습니다. 코드와 데이터셋은 https://github.com/Jometeorie/MineExplorer 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기