CoFL-S: 국소 언어 조건부 내비게이션을 위한 공간 쿼리 가능 섹터 흐름 필드 (Spatially Queryable Sector Flow
요약
시각-언어 내비게이션(VLN)에서 저수준 동작 표현을 강화하기 위해 언어 조건부 흐름 필드를 예측하는 CoFL-S 프레임워크를 제안합니다. 연속 시간 Habitat 벤치마크를 통해 기존 베이스라인보다 뛰어난 성능과 실세계 제로샷 배포 가능성을 입증했습니다.
핵심 포인트
- 언어 조건부 흐름 필드를 통한 저수준 시각-언어-동작 프레임워크 제안
- VLN-CE 에피소드를 프레임 수준의 국소 감독 데이터로 변환하여 학습
- 연속 시간 Habitat 벤치마크를 도입하여 폐루프 비교 환경 구축
- 기존 동작 토큰 및 청크 베이스라인 대비 우수한 성능 확인
- 실세계 제로샷 폐루프 배포를 통한 시뮬레이션 외 성능 입증
시각-언어 내비게이션 (Vision-Language Navigation, VLN)은 고수준 지시문 추론, 메모리, 글로벌 지도 구축 및 지시문 분해를 점점 더 강조해 온 반면, 저수준 동작 표현 (low-level action representation)은 상대적으로 덜 탐구된 상태로 남아 있습니다. 우리는 로봇의 국소 가시 섹터 (local visible sector)에 대해 언어 조건부 흐름 필드 (language-conditioned flow field)를 예측하고, 예측된 필드를 전개 (roll out)하여 연속적인 궤적을 생성하는 저수준 시각-언어-동작 (vision-language-action) 프레임워크인 CoFL-S를 제안합니다. 이 저수준 표현을 학습시키기 위해, 우리는 원래 에피소드 전체의 지시문과 동작 시퀀스가 쌍을 이루었던 각 VLN-CE 에피소드를, 정렬된 하위 지시문 (sub-instructions) 및 매칭된 동작, 궤적, 그리고 조밀한 흐름 필드 (dense flow-field) 타겟을 가진 프레임 수준의 국소 감독 (frame-level local supervision)으로 변환합니다. 평가를 위해, 우리는 지시문 분해로부터 저수준 동작 인터페이스를 격리하고 모든 방법을 공유 속도 명령 컨트롤러 (velocity-command controller)를 통해 실행하는 연속 시간 Habitat 벤치마크를 도입합니다. 이를 통해 VLN-CE의 고정된 이산적 전진 및 회전 전환 (discrete forward-and-turn transitions) 대신, 서로 다른 플래너 주파수 (planner frequencies)에 걸쳐 분해와 독립적인 폐루프 (closed-loop) 비교를 가능하게 합니다. 동일한 인코더 및 학습 설정 하에서, CoFL-S는 연속 시간 Habitat 벤치마크의 다양한 플래너 주파수에 걸쳐 동작 토큰 (action-token) 및 동작 청크 (action-chunk) 베이스라인을 일관되게 능가하며, 제로샷 (zero-shot) 실세계 폐루프 배포를 통해 시뮬레이션을 넘어 두 베이스라인 모두에 대한 우위를 추가로 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기