본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 13:34

무엇이 시각-언어 내비게이션 (Vision-and-Language Navigation)을 제한하는가?

요약

본 논문은 시각-언어 내비게이션(VLN)의 성능 저하 원인을 지각적 불안정성과 공간적 접지 부족에서 찾고, 이를 해결하기 위해 StereoNav이라는 견고한 Vision-Language-Action 프레임워크를 제안합니다. StereoNav은 목표 위치 사전 지식(Target-Location Priors)을 도입하여 도메인 전반에 걸쳐 안정적인 시각적 가이드를 제공하며, 스테레오 비전과 깊이 인식을 활용해 모션 블러 및 조명 변화 같은 시각적 방해 요소를 완화합니다. 실험 결과, StereoNav은 적은 파라미터와 데이터로도 최첨단 성능을 달성했으며, 실제 로봇 배포를 통해 내비게이션 신뢰성을 크게 향상시켰습니다.

핵심 포인트

  • VLN의 주요 문제점: 시뮬레이션과 실제 환경 간의 성능 격차(Sim-to-Real Gap) 및 지각적 불안정성.
  • 제안된 방법론: StereoNav은 Vision-Language-Action 프레임워크로, 목표 위치 사전 지식(Target-Location Priors)을 핵심 요소로 사용합니다.
  • 견고성 확보 전략: 스테레오 비전과 깊이 인식을 통합하여 모션 블러 및 조명 변화 같은 시각적 방해 요소를 극복합니다.
  • 실험 결과: 적은 파라미터와 데이터만으로도 기존의 스케일링 기반 접근 방식보다 우수한 최첨단 성능을 입증했습니다.
  • 실제 적용 가능성: 실제 로봇 배포를 통해 복잡한 환경에서의 내비게이션 신뢰성을 실질적으로 향상시켰습니다.

시각-언어 내비게이션 (Vision-and-Language Navigation, VLN)은 체화된 지능 (embodied intelligence)의 초석입니다. 그러나 현재의 에이전트들은 주로 지각적 불안정성 (perceptual instability, 예: 조명 변화 및 모션 블러 (motion blur))과 불충분하게 명시된 지시 사항으로 인해, 시뮬레이션에서 실제 환경 배포로 전환될 때 상당한 성능 저하를 겪는 경우가 많습니다. 기존 방법들은 모델 크기와 학습 데이터를 확장함으로써 이러한 격차를 줄이려 시도하지만, 우리는 병목 현상이 견고한 공간적 접지 (spatial grounding) 및 교차 도메인 사전 지식 (cross-domain priors)의 부족에 있다고 주장합니다. 본 논문에서 우리는 실제 환경 내비게이션의 일관성을 향상시키기 위해 설계된 견고한 시각-언어-행동 (Vision-Language-Action) 프레임워크인 StereoNav을 제안합니다. 합성 학습 (synthetic training)과 물리적 실행 (physical execution) 사이의 내재적인 격차를 해결하기 위해, 우리는 지속적인 가교 역할을 하는 목표 위치 사전 지식 (Target-Location Priors)을 도입합니다. 이러한 사전 지식은 도메인 전반에 걸쳐 불변하는 안정적인 시각적 가이드를 제공하여, 지시 사항이 모호할 때도 에이전트를 효과적으로 접지 (grounding) 시킵니다. 또한, 모션 블러 (motion blur) 및 조명 변화와 같은 시각적 방해 요소를 완화하기 위해, StereoNav은 스테레오 비전 (stereo vision)을 활용하여 의미론 (semantics)과 기하학 (geometry)의 통합된 표현을 구축하며, 향상된 깊이 인식 (depth awareness)을 통해 정밀한 행동 예측을 가능하게 합니다. R2R-CE 및 RxR-CE에 대한 광범위한 실험 결과, StereoNav은 이전의 스케일링 기반 접근 방식보다 훨씬 적은 파라미터와 학습 데이터를 사용하면서도, 각각 81.1%와 68.3%, 그리고 67.5%와 52.0%의 SR 및 SPL 점수로 최첨단 (state-of-the-art) 1인칭 RGB 성능을 달성함을 입증했습니다. 더욱 중요한 것은, 실제 로봇 배포를 통해 StereoNav이 복잡하고 구조화되지 않은 환경에서 내비게이션 신뢰성을 실질적으로 향상시킨다는 점을 확인했습니다. 프로젝트 페이지: https://yunheng-wang.github.io/stereonav-public.github.io.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0