arXiv논문2026. 05. 29. 12:55

3D VQA를 넘어: 강화된 기하학적 추론을 위한 Vision-Language Models에 3D 공간적 사전 지식(Spatial

요약

VLM의 3D 공간 추론 능력을 향상시키기 위해 기하학적 사전 지식을 트랜스포머 레이어에 직접 주입하는 GASP 프레임워크를 제안합니다. 대규모 비디오 장면의 정답 기하학을 활용한 이중 목적 함수 학습을 통해 3D VQA 데이터 없이도 벤치마크 성능을 크게 개선했습니다.

핵심 포인트

기하학적 사전 지식을 LLM 레이어에 직접 주입하는 GASP 제안
대조 학습과 깊이 일관성 감독을 통한 이중 목적 함수 활용
기존 VLM의 낮은 내부 대응 매칭 정확도를 70% 이상으로 개선
3D VQA 데이터 없이도 주요 공간 벤치마크 성능 대폭 향상

Vision-Language Models (VLMs)는 종종 견고한 3D 공간 추론 (3D spatial reasoning)에 어려움을 겪습니다. 3D 시각적 질의응답 (3D Visual Question-Answering, VQA) 데이터셋을 통한 미세 조정 (Fine-tuning)에 의존하는 기존 방식들은 데이터셋 특유의 편향 (Biases)에 과적합 (Overfit)될 수 있는 반면, 특화된 3D 시각 인코더 (3D visual encoders)를 통합하는 방식은 유연성이 떨어지고 번거로운 경우가 많습니다. 본 논문에서 우리는 진정한 공간 이해가 단순히 고차원적인 VQA 감독 (Supervision)뿐만 아니라, 근본적인 기하학적 사전 지식 (Geometric priors)을 학습함으로써 나타나야 한다고 주장합니다. 우리는 이러한 사전 지식을 LLM의 트랜스포머 레이어 (Transformer layers)에 직접 주입하는 프레임워크인 GASP (Geometric-Aware Spatial Priors)를 제안합니다. GASP는 모든 레이어에 걸쳐 심층 감독 신호 (Deep supervision signal)로 적용되는 작은 대응 헤드 (Correspondence head)를 채택하며, 대규모 비디오 장면의 정답 기하학 (Ground-truth geometry)을 활용한 이중 목적 함수 (Dual objective)로 학습됩니다. 즉, 정답 포인트 대응 (Ground-truth point correspondences)에 대한 대조 학습 손실 (Contrastive loss)은 2D 뷰 불변성 (2D view-invariance)을 강제하며, 깊이 일관성 감독 (Depth consistency supervision)은 3D 기하학적 모호성 (3D geometric ambiguities)을 해결합니다. 우리의 분석은 먼저 표준 VLM의 내부 대응 매칭 정확도 (Internal correspondence matching accuracy)가 매우 낮다(종종 5% 미만)는 진단 결과를 제공합니다. 그런 다음 우리의 학습 방식이 이러한 동작을 실질적으로 개선하여, 베이스라인이 5% 미만에 머무는 동안 레이어별 최대 대응도를 70% 이상으로 높이고 85% 이상의 시간적 견고성 (Temporal robustness)을 유지함을 입증합니다. 이러한 내부적 개선은 3D VQA 데이터로 학습하지 않고도 All-Angles Bench에서 +18.2%, VSI-Bench에서 +29.0%의 성능 향상을 포함하여 다운스트림 공간 벤치마크 (Downstream spatial benchmarks)에서 상당한 이득으로 이어집니다. 우리의 연구 결과는 근본적인 기하학적 사전 지식으로부터 학습하는 것이 더 신뢰할 수 있는 3D 공간 추론 능력을 갖춘 VLM으로 나아가는 유망하고 일반화 가능한 경로임을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

3D VQA를 넘어: 강화된 기하학적 추론을 위한 Vision-Language Models에 3D 공간적 사전 지식(Spatial

요약

핵심 포인트

댓글