P2DNav: 제로샷 시각-언어 내비게이션을 위한 파노라마-투-다운뷰 추론 (Panorama-to-Downview Reasoning)
요약
P2DNav는 제로샷 시각-언어 내비게이션(VLN)을 위해 제안된 계층적 프레임워크로, 의사결정 과정을 파노라마 방향 선택과 다운뷰 국소적 접지로 명시적으로 분해합니다. 슬라이딩 윈도우 대화 메모리(SDM)와 성찰적 재지향 메커니즘(RRM)을 통해 장기 내비게이션 성능과 결정의 신뢰성을 높였습니다. R2R-CE 벤치마크 실험 결과, 기존 제로샷 방법론 대비 압도적인 성공률 향상을 기록하며 그 효과를 입증했습니다.
핵심 포인트
- P2D(Panorama-to-Downview)를 통해 고수준 방향 추론과 세밀한 국소적 접지를 분리하여 오류를 최소화함
- SDM(Sliding-Window Dialogue Memory)을 사용하여 다회차 대화 문맥과 최근 시각적 관측값을 유지하며 장기 내비게이션 지원
- RRM(Reflective Reorientation Mechanism)을 통해 국소적 접지의 신뢰성을 평가하고 필요 시 재지향 가능
- R2R-CE 벤치마크에서 기존 SOTA 제로샷 방법론 대비 최대 146.6%의 성공률(SR) 향상 달성
시각-언어 내비게이션 (Vision-and-language navigation, VLN)은 체화된 에이전트 (embodied agent)가 보지 못한 환경에서 자연어 지시사항을 실행 가능한 내비게이션 동작으로 접지 (grounding) 할 것을 요구합니다. 기존의 제로샷 (zero-shot) 방법들은 일반적으로 추가적인 웨이포인트 (waypoint) 예측 모듈에 의존하는데, 이는 종종 고수준의 방향 추론과 세밀한 국소적 접지 (local grounding)를 뒤섞이게 하여 오류가 발생하기 쉽고 불안정한 결정을 내리게 합니다. 본 논문에서는 제로샷 시각-언어 내비게이션을 위한 계층적 프레임워크인 P2DNav를 제안합니다. P2DNav는 세 가지 핵심 구성 요소인 파노라마-투-다운뷰 (Panorama-to-Downview, P2D), 슬라이딩 윈도우 대화 메모리 (Sliding-Window Dialogue Memory, SDM), 그리고 성찰적 재지향 메커니즘 (Reflective Reorientation Mechanism, RRM)으로 구성됩니다. P2D는 내비게이션 의사결정을 파노라마 방향 선택과 다운뷰 국소적 접지 (downview local grounding)라는 두 단계로 명시적으로 분해합니다. 이는 먼저 360° 파노라마에서 지시사항과 관련된 방향을 선택한 다음, 해당 방향의 다운뷰 RGB 관측값으로부터 픽셀 수준의 목표 지점을 예측합니다. 또한, SDM은 내비게이션 이력을 다회차 대화 문맥 (multi-turn dialogue context)으로 구성하고, 장기 내비게이션 (long-horizon navigation)을 지원하기 위해 슬라이딩 윈도우 (sliding window) 내에 최근의 시각적 관측값을 유지합니다. RRM은 다운뷰 관측을 기반으로 국소적 접지의 신뢰성을 평가하고, 필요할 때 파노라마 방향 선택 단계로 돌아감으로써 성찰적 재지향 (reflective reorientation)을 가능하게 합니다. R2R-CE 벤치마크에서의 실험 결과, P2DNav는 제로샷 방법들 사이에서 강력한 성능을 달성했습니다. 특히, 최첨단 (state-of-the-art, SOTA) 제로샷 웨이포인트 기반 및 웨이포인트 프리 (waypoint-free) 방법들과 비교했을 때, P2DNav는 각각 146.6%와 58.9%의 성공률 (SR) 향상을 달성하여 제로샷 VLN을 위한 P2D, SDM, RRM의 효과를 입증했습니다. 코드는 공개용으로 배포될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기