본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 10:13

Reasmory: VLM의 공간 추론을 위한 명시적 메모리로서의 3D 재구성

요약

VLM의 정밀한 공간 추론 능력을 향상시키기 위해 3D 재구성을 명시적 메모리로 활용하는 Reasmory 프레임워크를 제안합니다. DSL을 통해 VLM의 도구 사용을 구조화된 프로그램 실행으로 제한하여 추론의 신뢰성을 높였습니다.

핵심 포인트

  • VLM의 시점 및 거리 추정 등 공간 추론 한계 극복
  • 3D 재구성을 통한 명시적 공간 메모리 구축
  • DSL을 도입하여 VLM의 도구 호출을 구조화된 프로그램으로 제어
  • GPT-5-mini 및 Gemini-3-flash 대비 성능 6~18% 향상

시각-언어 모델 (Vision-Language Models, VLMs)은 새로운 공간 추론 능력을 보여주고 있지만, 시점 추론 (viewpoint reasoning), 방향 비교 (directional comparison), 거리 추정 (distance estimation)과 같이 정밀한 공간 이해를 요구하는 작업에서는 여전히 신뢰할 수 없는 모습을 보입니다. 다중 뷰 이미지 (multi-view images) 및 단안 비디오 (monocular videos)에서 관련 공간 단서들은 종종 희소하며 중복된 관측값 전반에 분산되어 있어, 이를 조직화하고 활용하기 어렵습니다. 재구성 기반 시각 파운데이션 모델 (Reconstruction-based Vision Foundation Models, VFMs)은 이러한 관측값들을 포인트 클라우드 (point clouds)와 같은 명시적 공간 메모리 (explicit spatial memory)로 집계하는 자연스러운 방법을 제공합니다. 그러나 재구성 모델을 단순히 자유 형식의 도구 (free-form tools)로 노출하는 것은 취약하며, VLMs가 도구를 잘못 호출하거나, 필요한 공간 변환 (spatial transformations)을 건너뛰거나, 중간 결과물을 오용할 수 있습니다. 우리는 공간 추론을 재구성된 공간 메모리 상의 구조화된 프로그램 실행으로 공식화하는 프레임워크인 extbf{Reasmory}를 제안합니다. Reasmory는 명시적인 3D 메모리를 구축하고, 이를 의미론적으로 근거가 있는 3D 객체 인스턴스 (3D object instances)로 증강하며, 추론 과정에서 VLMs가 객체와 카메라를 쿼리하고, 시점을 변환하며, 관측값을 렌더링하는 방식을 제한하는 경량 도메인 특화 언어 (Domain-Specific Language, DSL)를 도입합니다. 생성된 프로그램은 실행 전에 파싱 및 검증되어, 제약 없는 도구 사용보다 공간 메모리와 더 신뢰할 수 있는 상호작용을 가능하게 합니다. 다중 뷰 이미지 및 비디오 공간 추론 벤치마크에 대한 실험 결과, GPT-5-mini 및 Gemini-3-flash를 포함한 강력한 베이스라인 대비 6~18%의 일관된 성능 향상을 보였으며, 이는 명시적인 3D 메모리가 자유 형식의 도구 호출보다는 제약되고 검증된 연산을 통해 접근될 때 가장 유용함을 나타냅니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0