MVP-Nav: 다층 가치 지도 플래너 네비게이터
요약
MVP-Nav는 깊이 정보가 없는 RGB 전용 환경에서 체화된 에이전트의 객체 탐색 성능을 높이는 프레임워크입니다. 3D 파운데이션 모델과 다층 가치 지도(MVM)를 통해 의미론적 추론과 물리적 제약 조건을 통합하여 안전하고 정확한 탐색을 가능하게 합니다.
핵심 포인트
- RGB 전용 환경에서 깊이 정보 없이도 정밀한 객체 탐색 가능
- 3D 파운데이션 모델을 활용한 물리적 점유 및 공간 의미 표현 재구성
- 다층 가치 지도(MVM)를 통한 고수준 추론과 저수준 물리 제약 통합
- 기존 depth-free 방식 대비 SOTA 성능 달성 입증
RGB 전용 인지만을 활용한 제로샷 객체 목표 탐색 (Zero-shot Object Goal Navigation, ZSON)은 체화된 에이전트 (embodied agents)에게 근본적인 과제를 제기합니다. 명시적인 깊이 정보 (depth information)의 부재는 심각한 물리적 불확실성과 의미적-물리적 불일치 (semantic-physical misalignment)를 야기하기 때문입니다. 기존 방식들은 기하학적 근거 (geometric grounding) 없이 고수준의 의미론적 추론 (semantic reasoning)에 의존하거나, 명시적인 물리적 제약 조건 (physical constraints)이 결여된 엔드투엔드 (end-to-end) 정책을 학습하여, 의미론적으로는 타당해 보이지만 물리적으로는 안전하지 않은 행동을 초래하는 경우가 많습니다.
본 논문에서 우리는 인지 (perception), 계획 (planning), 제어 (control)를 실제 3D 세계와 정렬하는 물리 인지형 RGB 전용 탐색 프레임워크인 MVP-Nav를 제안합니다. MVP-Nav는 3D 파운데이션 모델 (3D foundation models)을 활용하여 2D 의미론적 인스턴스 (semantic instances)를 3D 지향성 경계 상자 (3D oriented bounding boxes)로 투영함으로써 단안 관측 (monocular observations)으로부터 명시적인 물리적 점유 (physical occupancy)를 재구성하고, 전역 공간 의미 표현 (global spatial semantic representation)을 형성합니다. 고수준의 의미론적 추론과 저수준의 물리적 제약 조건을 통합하기 위해, 우리는 의미론적 우선순위와 재구성된 기하학적 구조를 공유 비용 공간 (shared cost space)으로 통합하는 다층 가치 지도 (Multi-layer Value Map, MVM)를 도입하여, 물리적 근거를 가진 기하학적 계획 (geometric planning)을 가능하게 합니다.
제로샷 객체 탐색 벤치마크에 대한 광범위한 실험을 통해, MVP-Nav가 기존의 깊이 정보가 없는 (depth-free) 방식들을 크게 능가하며 최첨단 (state-of-the-art) 성능을 달성함을 입증하였고, 구조화된 물리적 사전 지식 (physical priors)이 능동적 깊이 센서의 부재를 효과적으로 보완할 수 있음을 확인하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기