TARIC: 중단된 시맨틱 단서 하에서의 메모리 증강 주행 가능성 인식 실외 VLN
요약
시맨틱 단서가 중단되는 실외 VLN 환경에서 주행 가능성을 고려하여 목표 지향적 안내를 유지하는 TARIC 프레임워크를 제안합니다. 3D 단서 메모리와 불확실성 인식 메커니즘을 통해 단서 부재 시에도 안정적인 경로 탐색을 가능하게 합니다.
핵심 포인트
- 시맨틱 단서 중단 시 발생하는 에이전트의 오류 해결
- 주행 가능성 프로파일을 활용한 실행 가능한 헤딩 제공
- 세계 정렬 3D 단서 메모리로 안내 성능 저하 방지
- 실세계 성공률을 기존 베이스라인 대비 대폭 향상
장거리 오픈 월드 (Open-world) 환경에서의 실외 시각-언어 내비게이션 (Vision-Language Navigation, VLN)은 정보가 풍부한 목표 단서가 희소해지거나, 가려지거나, 시야에서 벗어나는 시맨틱 단서 중단 (Semantic-cue interruptions) 현상으로 인해 빈번하게 방해를 받습니다. 이러한 단서가 사라지면 에이전트는 단서가 없는 단계 (Cue-free phase)에 진입하며, 종종 되돌아가기 (Backtracking), 방향의 진동 (Oscillatory headings), 또는 목적 없는 탐색 (Aimless exploration) 상태로 저하됩니다. 메모리 기반 방법론들이 이러한 간극을 메우려 시도하지만, 주행 가능성 (Traversability) 중심의 우회 경로가 발생할 경우 실패하는 경우가 많습니다. 즉, 기억된 단서의 방향이 실행 불가능할 수 있으며, 이로 인해 발생하는 우회는 단서가 없는 단계를 연장시키고, 로봇 중심의 단서를 노후화시키며 암시적 이력 (Implicit histories)을 흐릿하게 만듭니다. 이는 주행 가능성을 단순한 국소적 안전 문제가 아닌, 목표 지향적 안내를 유지하기 위한 안정성 조건으로 만듭니다.
우리는 연장된 단서 부재 단계 동안 주행 가능성과 일치하는 실행 가능한 안내를 유지함으로써 시맨틱 단서 중단 상황에서도 생존할 수 있는 통합된 실외 VLN 프레임워크를 제안합니다. 구체적으로, 우리의 방법은 가시성 게이트 (Visibility-gated)가 적용된 목표 또는 탐색 단서로부터 시맨틱 방위 (Semantic bearings)를 추출하고, 이를 실시간 근거리 주행 가능성 프로파일 (Real-time near-field traversability profile)을 사용하여 실행 가능한 헤딩 (Executable headings)으로 접지 (Grounding)함으로써, 단순히 거부만 하는 안전 필터링을 넘어 목표와 일치하는 실행 가능한 안내를 제공합니다. 우회 중 안내 성능이 저하되는 것을 방지하기 위해, 우리는 간헐적인 2D 증거를 불확실성 인식 판독 메커니즘 (Uncertainty-aware readout mechanism)을 갖춘 세계 정렬 3D 단서 메모리 (World-aligned 3D cue memory)로 격상시켜, 로봇이 이동함에 따라 안내가 지속적으로 도달 가능하고 안정적으로 유지되도록 합니다.
우리는 600~1000m 경로에 대해 사족 보행 및 바퀴형 플랫폼에서 이 프레임워크를 평가합니다. 우리의 방법은 가장 강력한 베이스라인 대비 시뮬레이션 성공률을 10%포인트 이상 향상시켰으며, 가장 강력한 베이스라인의 실세계 성공률이 17.5%인 것에 비해 40%의 실세계 성공률을 달성하였고, 연장된 단서 부재 구간 동안 실질적으로 더 높은 강건성 (Robustness)을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기