MindEdit-Bench: 실제 사진 기반 VLM의 객체 수준 반사실적 공간 추론 벤치마킹

시각-언어 모델 (VLMs)을 위한 벤치마크는 대부분 관찰적 공간 추론 (observational spatial reasoning)을 테스트합니다. 즉, 모델이 입력값에 이미 보이는 관계를 설명하는 방식입니다. 기존의 '만약 한다면 (what-if)' 과제들은 일반적으로 장면은 고정된 채 관찰자만 변화시킵니다. 그렇다면 VLM이 가상으로 객체를 이동하거나 회전시켰을 때의 결과를 예측할 수 있을까요? 우리는 자동화된 야생 (in-the-wild) 3D 장면 그래프 추출 파이프라인을 통해 새로 촬영된 실내 장면의 스마트폰 3장 사진 세트(triplets)로 구축된 6가지 공간 추론 과제 벤치마크인 MindEdit-Bench를 소개합니다. 4개의 과제는 관찰된 구조에 대한 지각 (perception) 및 관점 변환 (perspective transformation)을 조사하며, 두 개의 새로운 과제인 L4 (공간 편집, spatial editing)와 L5 (교차 뷰 가시성 편집, cross-view visibility editing)는 정답이 모든 입력 이미지에 존재하지 않는 객체 수준의 반사실적 추론 (counterfactual reasoning)을 조사합니다. 각 질문은 824개의 구조화된 선택지를 제공하여, 공간적 오류 및 폴백 (fallback) 오류에 대한 답변 알파벳 수준의 진단을 가능하게 합니다. 이 벤치마크는 공개 데이터셋에서 가져오지 않은 120개의 비공개 실내 장면을 포함하여, 공개 데이터 사전 학습 중복 (pretraining-overlap) 위험을 줄였습니다. 1,003개의 인간 검증 질문에 대해 15개의 VLM을 테스트한 결과, 과제별 평균 VLM 정확도는 8%~31%에 불과했던 반면, 인간 다수결 정확도는 81%~97%였습니다. 통합된 인간-최고 성능 VLM 간의 격차는 53%p이며, 모든 과제에서 최소 39%p의 격차가 나타났습니다. 구조화된 답변 공간은 카메라-깊이-축 (camera-depth-axis) 추론의 취약성과 어려운 가시성 편집 사례에서의 폴백 동작을 포함하여, 비균일한 실패 양상을 추가로 드러냅니다.

Insights

MindEdit-Bench: 실제 사진 기반 VLM의 객체 수준 반사실적 공간 추론 벤치마킹

요약

핵심 포인트

댓글

네이버가 제 손으로 검색창을 지우기 시작했다 — AI 쇼핑 에이전트 정식 전환

내가 실제로 코드를 배포하기 위해 AI를 사용하는 방법: 영리한 프롬프트보다 컨텍스트 엔지니어링 (Context Engineering)

GraphRAG vs. RAG: 지식 그래프(Knowledge Graphs)의 복잡성이 정당화되는 시점

헤드 수준의 어텐션 융합을 통한 연산량 절감

네이버가 제 손으로 검색창을 지우기 시작했다 — AI 쇼핑 에이전트 정식 전환

내가 실제로 코드를 배포하기 위해 AI를 사용하는 방법: 영리한 프롬프트보다 컨텍스트 엔지니어링 (Context Engineering)

GraphRAG vs. RAG: 지식 그래프(Knowledge Graphs)의 복잡성이 정당화되는 시점

헤드 수준의 어텐션 융합을 통한 연산량 절감