arXiv논문2026. 05. 25. 16:34

SPACENUM: VLM의 공간적 수치 이해 재고

요약

본 연구는 VLM이 행동 크기나 공간 좌표와 같은 수치적 출력을 생성할 때 실제 공간적 지각에 근거하는지 분석합니다. SpaceNum 프레임워크를 통해 모델들이 수치와 공간 구조 간의 매핑에 실패하며, 무작위 추측에 가까운 성능을 보인다는 점을 밝혀냈습니다.

핵심 포인트

SpaceNum 프레임워크를 통한 공간적 수치 이해 재고
Num2Space 및 Space2Num 양방향 작업 공식화
현재 VLM의 공간 수치 이해 능력 부족 확인
얕은 공간적 단서 의존 및 좌표 인식 표현 구축의 어려움
튜닝을 통한 공간적 수치 이해의 부분적 개선 가능성

시각-언어 모델 (Vision-Language Models, VLMs)은 행동 크기(action magnitudes)나 공간 좌표(spatial coordinates)와 같은 수치적 출력을 생성해야 하는 체화된 환경 (embodied environments)에 점점 더 많이 배치되고 있습니다. 이러한 숫자들은 의미가 있어 보이지만, 이 수치적 출력들이 실제로 공간적 지각 (spatial perception)에 근거하고 있는지는 여전히 불분명합니다. 따라서 본 연구에서는 공간 탐색 중의 동적 전이 (dynamic transitions)로서의 숫자와 공간 추론 (spatial reasoning)에서의 정적 레이아웃 (static layouts)으로서의 숫자라는 두 가지 상호 보완적인 설정을 포착하는 통합 프레임워크인 SpaceNum을 통해 공간적 수치 이해를 재고합니다. 우리는 VLMs가 시각 측면의 공간 구조와 언어 측면의 수치 표현 사이를 얼마나 잘 매핑하는지 평가하기 위해 두 가지 양방향 작업인 Num2Space와 Space2Num을 공식화합니다. 우리는 현재의 VLMs가 공간 설정에서 수치 값을 진정으로 이해하는지 체계적으로 연구합니다. 동적 전이와 정적 레이아웃 전반에 걸쳐, 우리는 모델들이 숫자를 공간적 의미에 근거시키는 데 크게 실패하며 종종 무작위 추측 (random guess)에 가까운 성능을 보인다는 것을 발견했습니다. 오류 분석 (error analysis), 추론 흔적 분석 (reasoning trace analysis), 그리고 통제된 개입 (controlled interventions)을 통해, 우리는 현재의 VLMs가 얕은 공간적 단서 (shallow spatial cues)에 크게 의존하고, 안정적인 좌표 인식 표현 (coordinate-aware representations)을 구축하는 데 어려움을 겪으며, 시각적 관찰로부터 구조화된 공간 레이아웃을 추상화하는 데 실패함을 보여줍니다. 나아가 우리는 명시적 추론 (explicit reasoning)은 미미한 이점만을 제공하는 반면, 튜닝 (tuning)은 공간적 수치 이해를 부분적으로 개선하고 외부 공간 추론 벤치마크로 전이될 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

SPACENUM: VLM의 공간적 수치 이해 재고

요약

핵심 포인트

댓글