API를 넘어: 물리적 도구 사용에 있어서 MLLM의 한계 탐색
요약
MLLM의 물리적 도구 사용 능력을 평가하기 위한 최초의 벤치마크인 PhysTool-Bench를 소개합니다. 실험 결과, 최신 모델들도 도구 인식과 작업 계획 단계에서 심각한 한계를 보이며 기능적 상식의 부족을 드러냈습니다.
핵심 포인트
- 물리적 도구 사용 평가를 위한 PhysTool-Bench 공개
- Gemini-1.5-Pro 등 주요 MLLM의 낮은 도구 식별 및 수행 능력 확인
- 도구 인식 능력과 작업 의미론 매핑 간의 성능 격차 발견
- 체화된 AI 발전을 위한 기능적 상식 확보의 중요성 강조
멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 디지털 API를 활용하는 데 탁월하며, 로봇이 물리적 세계와 상호작용하도록 지시하는 체화된 AI (Embodied AI)의 "두뇌" 역할을 점점 더 수행하고 있습니다. 이러한 체화된 환경에서 핵심적인 능력은 물리적 도구 (Physical tools)의 사용이며, 이는 실세계 작업에서 인간을 보조하는 MLLM의 능력을 뒷받침합니다. 이러한 중요성에도 불구하고, 물리적 도구 사용에 대한 MLLM의 숙련도는 여전히 대부분 탐구되지 않은 상태로 남아 있습니다. 이 격차를 해소하기 위해, 우리는 MLLMs가 실세계 시나리오를 이해하고, 물리적 도구를 식별하며, 그 사용을 계획하는 능력을 평가하기 위해 설계된 최초의 물리적 도구 사용 벤치마크인 PhysTool-Bench를 소개합니다. PhysTool-Bench는 제조, 전기 작업, 농업 및 의료를 포함한 다양한 영역에 걸친 2,678개의 실제 물리적 도구에 대한 2,510개의 쿼리 (Queries)로 구성됩니다. 구체적으로, 모델은 두 가지 주요 차원에서 평가됩니다: 1) 장면 내에 존재하는 모든 물리적 도구를 인식하는 것, 2) 지시 사항과 시각적 문맥 (Visual context)을 기반으로 도구 선택 및 사용 순서를 계획하는 것입니다. 13개의 선도적인 MLLMs를 대상으로 테스트한 결과, 가장 강력한 모델인 Gemini-3.1-Pro조차 장면 내 도구의 58.7%만을 식별했으며, 쿼리의 단 21.0%만을 엔드 투 엔드 (End-to-end)로 완료했습니다. 우리의 분석은 두 단계의 결함을 드러냅니다: MLLMs는 현실적인 장면에서 도구를 인지하는 데 어려움을 겪으며, 계획 단계에서의 훨씬 더 큰 성능 저하는 인지된 도구를 작업 의미론 (Task semantics)에 매핑하기 위한 기능적 상식 (Functional commonsense)의 부족을 나타내며, 이는 실용적인 체화된 AI 개발을 위한 결정적인 병목 현상임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기