무엇이 시각-언어 내비게이션 (Vision-and-Language Navigation)을 제한하는가?

시각-언어 내비게이션 (Vision-and-Language Navigation, VLN)은 체화된 지능 (embodied intelligence)의 초석입니다. 그러나 현재의 에이전트들은 주로 지각적 불안정성 (perceptual instability, 예: 조명 변화 및 모션 블러 (motion blur))과 불충분하게 명시된 지시 사항으로 인해, 시뮬레이션에서 실제 환경 배포로 전환될 때 상당한 성능 저하를 겪는 경우가 많습니다. 기존 방법들은 모델 크기와 학습 데이터를 확장함으로써 이러한 격차를 줄이려 시도하지만, 우리는 병목 현상이 견고한 공간적 접지 (spatial grounding) 및 교차 도메인 사전 지식 (cross-domain priors)의 부족에 있다고 주장합니다. 본 논문에서 우리는 실제 환경 내비게이션의 일관성을 향상시키기 위해 설계된 견고한 시각-언어-행동 (Vision-Language-Action) 프레임워크인 StereoNav을 제안합니다. 합성 학습 (synthetic training)과 물리적 실행 (physical execution) 사이의 내재적인 격차를 해결하기 위해, 우리는 지속적인 가교 역할을 하는 목표 위치 사전 지식 (Target-Location Priors)을 도입합니다. 이러한 사전 지식은 도메인 전반에 걸쳐 불변하는 안정적인 시각적 가이드를 제공하여, 지시 사항이 모호할 때도 에이전트를 효과적으로 접지 (grounding) 시킵니다. 또한, 모션 블러 (motion blur) 및 조명 변화와 같은 시각적 방해 요소를 완화하기 위해, StereoNav은 스테레오 비전 (stereo vision)을 활용하여 의미론 (semantics)과 기하학 (geometry)의 통합된 표현을 구축하며, 향상된 깊이 인식 (depth awareness)을 통해 정밀한 행동 예측을 가능하게 합니다. R2R-CE 및 RxR-CE에 대한 광범위한 실험 결과, StereoNav은 이전의 스케일링 기반 접근 방식보다 훨씬 적은 파라미터와 학습 데이터를 사용하면서도, 각각 81.1%와 68.3%, 그리고 67.5%와 52.0%의 SR 및 SPL 점수로 최첨단 (state-of-the-art) 1인칭 RGB 성능을 달성함을 입증했습니다. 더욱 중요한 것은, 실제 로봇 배포를 통해 StereoNav이 복잡하고 구조화되지 않은 환경에서 내비게이션 신뢰성을 실질적으로 향상시킨다는 점을 확인했습니다. 프로젝트 페이지: https://yunheng-wang.github.io/stereonav-public.github.io.

Insights

무엇이 시각-언어 내비게이션 (Vision-and-Language Navigation)을 제한하는가?

요약

핵심 포인트

댓글

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것

AT&T, 번들 상품 수요 증가로 신규 무선 가입자 목표치 상회

WSJ 오피니언: US SEC, 메시지 유실 관련 Coinbase와의 FOIA 소송 합의

Deepseek V4 Flash 모델을 두 개의 Nvidia 4090d 48G GPU에서 vLLM으로 구동한 성능 분석

AT&T, 번들 상품 수요 증가로 신규 무선 가입자 목표치 상회

WSJ 오피니언: US SEC, 메시지 유실 관련 Coinbase와의 FOIA 소송 합의

Deepseek V4 Flash 모델을 두 개의 Nvidia 4090d 48G GPU에서 vLLM으로 구동한 성능 분석