CoFL-S: 국소 언어 조건부 내비게이션을 위한 공간 쿼리 가능 섹터 흐름 필드 (Spatially Queryable Sector Flow

시각-언어 내비게이션 (Vision-Language Navigation, VLN)은 고수준 지시문 추론, 메모리, 글로벌 지도 구축 및 지시문 분해를 점점 더 강조해 온 반면, 저수준 동작 표현 (low-level action representation)은 상대적으로 덜 탐구된 상태로 남아 있습니다. 우리는 로봇의 국소 가시 섹터 (local visible sector)에 대해 언어 조건부 흐름 필드 (language-conditioned flow field)를 예측하고, 예측된 필드를 전개 (roll out)하여 연속적인 궤적을 생성하는 저수준 시각-언어-동작 (vision-language-action) 프레임워크인 CoFL-S를 제안합니다. 이 저수준 표현을 학습시키기 위해, 우리는 원래 에피소드 전체의 지시문과 동작 시퀀스가 쌍을 이루었던 각 VLN-CE 에피소드를, 정렬된 하위 지시문 (sub-instructions) 및 매칭된 동작, 궤적, 그리고 조밀한 흐름 필드 (dense flow-field) 타겟을 가진 프레임 수준의 국소 감독 (frame-level local supervision)으로 변환합니다. 평가를 위해, 우리는 지시문 분해로부터 저수준 동작 인터페이스를 격리하고 모든 방법을 공유 속도 명령 컨트롤러 (velocity-command controller)를 통해 실행하는 연속 시간 Habitat 벤치마크를 도입합니다. 이를 통해 VLN-CE의 고정된 이산적 전진 및 회전 전환 (discrete forward-and-turn transitions) 대신, 서로 다른 플래너 주파수 (planner frequencies)에 걸쳐 분해와 독립적인 폐루프 (closed-loop) 비교를 가능하게 합니다. 동일한 인코더 및 학습 설정 하에서, CoFL-S는 연속 시간 Habitat 벤치마크의 다양한 플래너 주파수에 걸쳐 동작 토큰 (action-token) 및 동작 청크 (action-chunk) 베이스라인을 일관되게 능가하며, 제로샷 (zero-shot) 실세계 폐루프 배포를 통해 시뮬레이션을 넘어 두 베이스라인 모두에 대한 우위를 추가로 입증합니다.

Insights

CoFL-S: 국소 언어 조건부 내비게이션을 위한 공간 쿼리 가능 섹터 흐름 필드 (Spatially Queryable Sector Flow

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때