MVP-Nav: 다층 가치 지도 플래너 네비게이터

RGB 전용 인지만을 활용한 제로샷 객체 목표 탐색 (Zero-shot Object Goal Navigation, ZSON)은 체화된 에이전트 (embodied agents)에게 근본적인 과제를 제기합니다. 명시적인 깊이 정보 (depth information)의 부재는 심각한 물리적 불확실성과 의미적-물리적 불일치 (semantic-physical misalignment)를 야기하기 때문입니다. 기존 방식들은 기하학적 근거 (geometric grounding) 없이 고수준의 의미론적 추론 (semantic reasoning)에 의존하거나, 명시적인 물리적 제약 조건 (physical constraints)이 결여된 엔드투엔드 (end-to-end) 정책을 학습하여, 의미론적으로는 타당해 보이지만 물리적으로는 안전하지 않은 행동을 초래하는 경우가 많습니다.

본 논문에서 우리는 인지 (perception), 계획 (planning), 제어 (control)를 실제 3D 세계와 정렬하는 물리 인지형 RGB 전용 탐색 프레임워크인 MVP-Nav를 제안합니다. MVP-Nav는 3D 파운데이션 모델 (3D foundation models)을 활용하여 2D 의미론적 인스턴스 (semantic instances)를 3D 지향성 경계 상자 (3D oriented bounding boxes)로 투영함으로써 단안 관측 (monocular observations)으로부터 명시적인 물리적 점유 (physical occupancy)를 재구성하고, 전역 공간 의미 표현 (global spatial semantic representation)을 형성합니다. 고수준의 의미론적 추론과 저수준의 물리적 제약 조건을 통합하기 위해, 우리는 의미론적 우선순위와 재구성된 기하학적 구조를 공유 비용 공간 (shared cost space)으로 통합하는 다층 가치 지도 (Multi-layer Value Map, MVM)를 도입하여, 물리적 근거를 가진 기하학적 계획 (geometric planning)을 가능하게 합니다.

제로샷 객체 탐색 벤치마크에 대한 광범위한 실험을 통해, MVP-Nav가 기존의 깊이 정보가 없는 (depth-free) 방식들을 크게 능가하며 최첨단 (state-of-the-art) 성능을 달성함을 입증하였고, 구조화된 물리적 사전 지식 (physical priors)이 능동적 깊이 센서의 부재를 효과적으로 보완할 수 있음을 확인하였습니다.

Insights

MVP-Nav: 다층 가치 지도 플래너 네비게이터

요약

핵심 포인트

댓글

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법