웨이포인트를 넘어: 시각-언어 내비게이션을 위한 궤적 중심의 웨이포인트 패러다임
요약
기존의 분리된 웨이포인트 예측 방식이 가진 도달 불가능성 문제를 해결하기 위해 궤적 중심의 새로운 패러다임을 제안합니다. TSDF 가이드 확산 정책을 통해 장애물을 회피하는 실행 가능한 궤적을 생성하며, 고수준 결정과 저수준 실행 간의 일관성을 높였습니다.
핵심 포인트
- 기존 웨이포인트 방식의 계획-제어 불일치 문제 해결
- 실행 가능한 궤적 기반의 Trajectory Waypoint 패러다임 도입
- TSDF 가이드 확산 정책을 통한 장애물 회피 및 도달 가능성 보장
- 궤적 강화 내비게이터를 통한 의미론적 결정과 실행의 일관성 확보
연속적인 환경에서의 시각-언어 내비게이션 (Vision-Language Navigation in Continuous Environments, VLN-CE)은 에이전트가 실제 환경과 유사한 환경을 탐색하는 동안 자연어 지시를 따를 것을 요구합니다. 대부분의 VLN-CE 접근 방식은 3단계 프레임워크를 채택합니다. 즉, 웨이포인트 예측기 (waypoint predictor)가 탐색 가능한 웨이포인트를 제안하면, 내비게이터 (navigator)가 최적의 웨이포인트를 선택하고, 저수준 컨트롤러 (low-level controller)가 해당 지점으로의 이동을 실행합니다. 그러나 이러한 분리된 (decoupled) 패러다임은 종종 도달 불가능한 웨이포인트를 생성하거나 계획 (planning)과 제어 (control) 사이의 불일치를 초래합니다. 본 연구에서는 고립된 웨이포인트를 예측하는 대신, 각 후보 웨이포인트를 실행 가능한 궤적 (trajectory)에 기반하도록 하는 Trajectory Waypoint라는 새로운 패러다임을 소개합니다. 이를 실현하기 위해, 우리는 TSDF (Truncated Signed Distance Function) 가이드 확산 정책 (diffusion policy)으로 공식화된 Trajectory Waypoint 예측기를 설계하였으며, 이는 궤적 생성이 장애물을 피하도록 유도하여 예측된 웨이포인트의 도달 가능성을 본질적으로 보장합니다. 나아가, 우리는 관련 궤적을 계획을 위한 추가 정보로 주입하는 궤적 강화 내비게이터 (trajectory-enhanced navigator)를 제안하여, 고수준의 의미론적 결정 (semantic decisions)과 저수준의 실행 (execution) 사이의 엄격한 일관성을 가능하게 합니다. VLN-CE 벤치마크에 대한 광범위한 실험 결과, 우리의 Trajectory Waypoint 패러다임이 베이스라인 (baselines) 대비 우수한 성능을 달성함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기