상상적 지각 토큰(Imaginative Perception Tokens)을 통한 멀티모달 언어 모델의 공간 추론 능력 향상
요약
시각 언어 모델(VLM)의 공간 추론 능력을 높이기 위해 상상적 지각 토큰(IPT)을 제안하는 연구입니다. IPT는 보이지 않는 공간을 추론하는 중간 지각 표현을 통해 관점 취하기, 경로 추적 등의 작업에서 성능을 향상시킵니다.
핵심 포인트
- 상상적 지각 토큰(IPT)을 통한 VLM의 공간 추론 능력 강화
- PET, PT, MVC 등 세 가지 새로운 공간 추론 작업 정의
- 텍스트 기반 CoT보다 IPT가 공간 연산에서 더 우수한 성능 발휘
- 언어를 통한 공간 연산 강제 시 발생하는 양식 불일치 문제 지적
시각 언어 모델 (Vision Language Models, VLMs)은 많은 작업에서 뛰어난 성능을 보이지만, 중요한 정보가 직접 관찰되지 않을 때 공간 추론 (Spatial Reasoning)에 여전히 어려움을 겪습니다. 이러한 많은 문제들은 상상적 지각 (Imaginative Perception)을 필요로 합니다. 즉, 보이지 않는 관점에서 무엇이 보일지 추론하거나, 가려진 공간을 통해 경로를 추적하거나, 부분적인 관찰 내용을 일관된 공간 표현 (Spatial Representation)으로 통합하는 과정이 필요합니다. 본 연구에서는 상상적 지각 토큰 (Imaginative Perception Tokens, IPT)을 소개합니다. 이는 관찰된 입력과 일관성을 유지하면서, VLM이 대안적인 공간 구성 하에서 무엇을 지각할지를 외재화하는 중간 지각 표현 (Intermediate Perceptual Representations)입니다. 이 능력을 연구하기 위해 우리는 관점 취하기 (Perspective Taking, PET), 경로 추적 (Path Tracing, PT), 다중 뷰 카운팅 (Multiview Counting, MVC)이라는 세 가지 작업을 정의하였으며, 정답 상상 (Ground Truth Imaginations), 답변 및 평가 벤치마크를 포함하여 약 2만 개의 예시로 구성된 데이터셋을 구축했습니다. 통합 VLM인 BAGEL을 백본 (Backbone)으로 사용하여 실험한 결과, IPT 감독 (Supervision)은 공간 추론 능력을 일관되게 향상시켰으며, 추론 시에 이미지를 생성하지 않더라도 텍스트 기반의 사고 사슬 (Chain of Thought, CoT) 학습보다 종종 더 나은 성능을 보였습니다. MVC 작업에서 IPT는 정확도를 3.4% 향상시켰으며, PT 작업에서는 강력한 폐쇄형 모델 (Closed-source Models)과 경쟁할 만한 성능을 달성했습니다. 나아가 우리는 IPT와 라벨 전용 감독 (Label-only Supervision)을 결합했을 때 추가적인 이득이 발생하는 반면, 텍스트 기반의 사고 사슬 (Textual Chain of Thought)은 성능을 상당히 저하시킬 수 있음을 발견했습니다. 이는 공간 연산 (Spatial Computation)을 언어를 통해 강제할 때 양식 불일치 (Modality Mismatch)가 발생할 수 있음을 시사합니다. 종합적으로, IPT는 관찰되지 않은 공간 구조에 대해 추론하기 위한 원칙적인 감독 신호를 제공하며, 해석 가능한 중간 표현을 생성하는 동시에 일반화 성능을 향상시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기