MindEdit-Bench: 실제 사진 기반 VLM의 객체 수준 반사실적 공간 추론 벤치마킹
요약
VLM의 객체 수준 반사실적 공간 추론 능력을 평가하기 위한 새로운 벤치마크인 MindEdit-Bench를 소개합니다. 실제 사진 기반의 3D 장면 그래프를 활용하여 모델이 객체의 이동이나 회전 등 가상 변화를 예측할 수 있는지 테스트합니다.
핵심 포인트
- 객체 수준의 반사실적 추론을 측정하는 6가지 공간 추론 과제 제안
- 데이터 중복을 방지하기 위해 120개의 비공개 실내 장면 데이터셋 활용
- 테스트 결과 VLM의 성능이 인간의 성능에 비해 현저히 낮음을 확인
- 카메라-깊이-축 추론 및 가시성 편집에서의 모델 취약성 진단
시각-언어 모델 (VLMs)을 위한 벤치마크는 대부분 관찰적 공간 추론 (observational spatial reasoning)을 테스트합니다. 즉, 모델이 입력값에 이미 보이는 관계를 설명하는 방식입니다. 기존의 '만약 한다면 (what-if)' 과제들은 일반적으로 장면은 고정된 채 관찰자만 변화시킵니다. 그렇다면 VLM이 가상으로 객체를 이동하거나 회전시켰을 때의 결과를 예측할 수 있을까요? 우리는 자동화된 야생 (in-the-wild) 3D 장면 그래프 추출 파이프라인을 통해 새로 촬영된 실내 장면의 스마트폰 3장 사진 세트(triplets)로 구축된 6가지 공간 추론 과제 벤치마크인 MindEdit-Bench를 소개합니다. 4개의 과제는 관찰된 구조에 대한 지각 (perception) 및 관점 변환 (perspective transformation)을 조사하며, 두 개의 새로운 과제인 L4 (공간 편집, spatial editing)와 L5 (교차 뷰 가시성 편집, cross-view visibility editing)는 정답이 모든 입력 이미지에 존재하지 않는 객체 수준의 반사실적 추론 (counterfactual reasoning)을 조사합니다. 각 질문은 824개의 구조화된 선택지를 제공하여, 공간적 오류 및 폴백 (fallback) 오류에 대한 답변 알파벳 수준의 진단을 가능하게 합니다. 이 벤치마크는 공개 데이터셋에서 가져오지 않은 120개의 비공개 실내 장면을 포함하여, 공개 데이터 사전 학습 중복 (pretraining-overlap) 위험을 줄였습니다. 1,003개의 인간 검증 질문에 대해 15개의 VLM을 테스트한 결과, 과제별 평균 VLM 정확도는 8%~31%에 불과했던 반면, 인간 다수결 정확도는 81%~97%였습니다. 통합된 인간-최고 성능 VLM 간의 격차는 53%p이며, 모든 과제에서 최소 39%p의 격차가 나타났습니다. 구조화된 답변 공간은 카메라-깊이-축 (camera-depth-axis) 추론의 취약성과 어려운 가시성 편집 사례에서의 폴백 동작을 포함하여, 비균일한 실패 양상을 추가로 드러냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기