arXiv논문2026. 06. 09. 11:50

SpatialWorld: 실제 세계 작업에서 멀티모달 에이전트의 상호작용적 공간 추론 벤치마킹

요약

멀티모달 에이전트의 상호작용적 공간 추론 능력을 평가하기 위한 통합 벤치마크인 SpatialWorld를 소개합니다. 8개의 시뮬레이션 백엔드와 760개의 인간 주석 작업을 통해 에이전트의 능동적 탐색 및 계획 능력을 엄격히 검증합니다.

핵심 포인트

시뮬레이터 불가지론적 프로토콜 기반의 통합 벤치마크 설계
가사, 여행, 협업 등 다양한 도메인의 760개 작업 포함
GPT-5(17.4%)와 Qwen-3.5(14.1%) 등 주요 모델의 낮은 성공률 확인
능동적 탐색 및 장기 계획 능력의 병목 현상 규명

공간 추론 (Spatial reasoning)은 멀티모달 거대 언어 모델 (MLLMs)이 물리적 세계를 인지하고 작동하기 위한 기초적인 능력입니다. 그러나 기존의 벤치마크들은 주로 수동적 평가 (예: 정적 VQA) 또는 시뮬레이터 특정 파이프라인에 의존하고 있어, 일반적인 상호작용적 공간 이해를 평가하는 데 실패하고 있습니다. 우리는 복잡한 실제 세계 작업에서 멀티모달 에이전트의 상호작용적 공간 이해를 평가하기 위해 특별히 설계된 통합 벤치마크인 SpatialWorld를 소개합니다. 8개의 이질적인 시뮬레이션 백엔드를 공유된 시뮬레이터 불가지론적 (simulator-agnostic) 프로토콜 하에 통합한 SpatialWorld는 다양한 도메인 (예: 가사 루틴, 여행, 사회적 협업)에 걸쳐 760개의 인간 주석 작업 (human-annotated tasks)을 특징으로 합니다. 에이전트는 시각 전용 부분 관측 가능성 (vision-only partial observability) 하에서 작업을 해결해야 하며, 능동적으로 1인칭 시점 (egocentric) 시각 증거를 수집하고 MLLMs에 내장된 통합된 텍스트 기반 액션 인터페이스를 통해 결정을 표현해야 합니다. 신뢰할 수 있는 평가를 위해, 각 작업에는 인간이 검증한 초기 상태, 참조 궤적 (reference trajectory), 그리고 최종 상태 검증기 (terminal-state verifier)가 포함됩니다. 15개의 고급 에이전트를 평가한 결과, 강력한 공간 작업 해결 능력을 갖추는 것이 여전히 도전적인 과제임이 드러났습니다. 가장 강력한 모델인 GPT-5는 평균 작업 성공률 (TSR) 17.4%만을 달성했으며, 선두적인 오픈 소스 모델인 Qwen-3.5는 14.1%에 도달했습니다. 추가 분석을 통해 작업 성공과 실행 효율성 사이의 명확한 불일치와 더불어 상당한 도메인별 성능 차이가 있음이 밝혀졌습니다. 능동적 탐색 (active exploration) 및 장기 계획 (long-horizon planning)에서의 이러한 병목 현상은 SpatialWorld를 미래의 공간 에이전트를 위한 엄격한 테스트베드로 자리매김하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SpatialWorld: 실제 세계 작업에서 멀티모달 에이전트의 상호작용적 공간 추론 벤치마킹

요약

핵심 포인트

댓글