ERGeoBench: 멀티모달 거대 언어 모델(MLLMs)의 체화된 추론 및 지리적 위치 파악을 위한 종합 벤치마크
요약
MLLM의 체화된 지리적 위치 파악 능력을 평가하기 위한 새로운 벤치마크인 ERGeoBench를 제안합니다. 단일 시점부터 체화된 시점까지 단계적 설정을 통해 모델의 지각, 공간 인지, 상식 및 지리적 추론 능력을 종합적으로 진단합니다.
핵심 포인트
- ERGeoBench는 시각 주도형 체화된 지리적 위치 파악을 위한 진단용 벤치마크임
- 단일, 파노라마, 체화된 시점의 세 가지 단계적 평가 설정을 제공함
- 현재 MLLM은 고차원 추론은 가능하나 세밀한 지각 및 공간 일관성 유지에 한계가 있음
- 정확한 위치 파악은 통합된 지각, 공간 추론, 상식적 추론과 강한 상관관계를 가짐
멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 체화된 에이전트 (Embodied Agents)로서 강력한 잠재력을 보여주었으나, 세밀한 평가 방식의 부재로 인해 체화된 지리적 위치 파악 (Embodied Geo-localization) 분야는 여전히 미개척 상태로 남아 있습니다. 본 연구에서는 시각 주도형 체화된 지리적 위치 파악을 위한 진단용 벤치마크인 ERGeoBench를 소개합니다. ERGeoBench는 에이전트가 yaw, pitch, zoom의 순차적인 변화를 통해 능동적으로 관찰을 획득할 수 있는 세 가지 단계적 설정인 단일 시점 (Single-view), 파노라마 시점 (Panorama-view), 그리고 체화된 시점 (Embodied-view) 하에서 모델을 평가합니다. 이 벤치마크는 전 세계에 분포된 2,207개의 거리 뷰 파노라마를 포함하며, 기초적 지각 (Foundational perception), 공간 인지 (Spatial awareness), 상식 추론 (Common sense reasoning), 그리고 지리적 위치 파악 추론 (Geo-localization reasoning)이라는 네 가지 상호 보완적인 능력을 측정합니다. 주요 독점 및 오픈 소스 MLLM들을 평가한 결과, 현재의 모델들은 고차원적인 지리적 의미론 (Geographic semantics)을 추론할 수는 있지만, 세밀한 지각 작업 (Fine-grained perceptual operations), 미터법 기반 위치 파악 (Metric localization), 그리고 시점 간의 공간적 일관성 (Spatial consistency) 유지에는 여전히 어려움을 겪고 있음을 보여줍니다. 나아가 우리는 지리적 위치 파악이 다른 능력 차원들과 강한 상관관계가 있음을 관찰하였으며, 이는 정확한 위치 파악이 고립된 시각적 인식보다는 통합된 지각, 공간 추론, 그리고 상식적 추론에 달려 있음을 시사합니다. 종합적으로, ERGeoBench는 인간과 유사한 체화된 지리적 위치 파악을 진단하고 발전시키기 위한 통합된 프레임워크를 제공합니다. 프로젝트 페이지: https://kaixuewen.github.io/ERGeoBench/
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기