DART-VLN: 이산적 시각-언어 내비게이션을 위한 테스트 시간 메모리 감쇠 및 루프 방지 정규화
요약
DART-VLN은 재학습 없이 이산적 시각-언어 내비게이션(VLN)의 성능을 개선하는 테스트 시간 제어 프레임워크입니다. 메모리 감쇠와 루프 방지 정규화를 통해 과거의 중복 증거를 억제하고 비효율적인 되돌아가기를 방지합니다.
핵심 포인트
- 학습 가능한 파라미터 추가 없이 기존 백본 활용
- 테스트 시간 메모리 감쇠로 오래된 증거 억제
- 루프 방지 정규화를 통한 국소적 되돌아가기 방지
- R2R 및 REVERIE 벤치마크에서 경로 효율성 및 성능 향상
메모리 기반의 이산적 시각-언어 내비게이션 (Vision-Language Navigation, VLN) 에이전트는 부분 관측 가능성 (partial observability) 하에서 동작해야 하며, 강력한 고정된 백본 (frozen backbones)조차 테스트 시간 (test time)에는 취약성을 보입니다. 두 가지 일반적인 실패 모드는 메모리 판독 (memory readout) 시의 오래된 과거 증거와 행동 선택 (action selection) 과정에서의 비효율적인 국소적 되돌아가기 (local backtracking)입니다. 우리는 이산적 VLN을 위한 학습이 필요 없는 테스트 시간 제어 프레임워크인 DART-VLN을 제안합니다. DART-VLN은 저장된 내용을 다시 쓰지 않고도 오래되고 중복된 증거를 억제하는 판독 측 메모리 재가중치 규칙인 테스트 시간 메모리 감쇠 (Test-Time Memory Decay)와, 행동 선택 중 즉각적인 역행을 방지하는 경량화된 다음 단계 페널티인 루프 방지 정규화 (Anti-Loop Regularization)를 결합합니다. 이 프레임워크는 새로운 학습 가능한 파라미터를 도입하지 않으며 학습된 백본을 변경하지 않은 채 유지합니다. R2R 및 REVERIE에 대한 실험은 일관된 패턴을 보여줍니다: 감쇠 (decay)만 적용했을 때는 안정적인 판독 측 이득을 제공하며, 감쇠와 루프 방지 (decay+anti-loop)를 함께 적용했을 때 가장 우수한 전반적인 품질-효율성 트레이드오프 (quality-efficiency trade-off)를 달성하여, 더 짧은 궤적, 더 낮은 실행 시간, 그리고 주요 설정에서의 향상된 내비게이션 성능을 산출합니다. 행동 분석은 루프 방지 정규화가 고정된 백본 환경에서 국소적 되돌아가기를 줄이고 경로 효율성을 개선함을 추가로 확인시켜 줍니다. 종합적으로, 결과는 적절한 테스트 시간 제어가 재학습 없이도 메모리 기반 이산적 VLN을 더욱 신뢰할 수 있고 효율적으로 만들 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기