Guided Action Flow: Flow-Matching 시각-언어-행동 (VLA) 정책을 위한 Q-가이드 추론

Flow-matching 시각-언어-행동 (Vision-Language-Action, VLA) 정책은 반복적인 수송 과정 (iterative transport process)을 통해 로봇 행동 청크 (action chunks)를 생성하며, 이는 기본 정책을 재학습시키지 않고도 테스트 시간 가이드 (test-time guidance)를 적용할 수 있는 기회를 제공합니다. 우리는 Guided Action Flow에서 이 기회를 연구합니다. 이 프레임워크는 사전 학습된 SmolVLA 정책을 동결 (frozen) 상태로 유지하면서, 학습된 행동-청크 비평가 (action-chunk critic)를 사용하여 역시간 흐름 샘플러 (reverse-time flow sampler)를 가이드합니다. 비평가는 실제 성공 및 실패 롤아웃 (rollouts)으로부터 학습되며, 동결된 SmolVLA 언어 경로의 작업 설명 특징 (task-description features)을 조건으로 사용할 수 있고, 샘플링 과정 중 행동 그래디언트 (action gradients)를 통해서만 사용됩니다. 우리는 LIBERO 조작 작업에서 이 접근 방식을 평가합니다. 단일 작업 비평가는 하나의 시드 윈도우 (seed window)에서 성공률을 68.0%에서 82.0%로, 다른 시드에서는 82.0%에서 86.0%로 향상시킵니다. 다중 패밀리 작업 설명 비평가는 검증 성공률을 46.0%에서 56.0%로 향상시키는 반면, 잠긴 홀드아웃 테스트 (locked held-out test) 이득은 65.0%에서 67.5%로 양수이지만 완만합니다. 이러한 결과는 동결된 flow-matching VLA 정책에 대한 Q-가이드 추론 (Q-guided inference)의 타당성을 뒷받침하는 동시에, 비평가의 일반화 (generalization)와 불확실성 인지 가이드 (uncertainty-aware guidance)가 여전히 핵심적인 병목 현상임을 보여줍니다.

Insights

Guided Action Flow: Flow-Matching 시각-언어-행동 (VLA) 정책을 위한 Q-가이드 추론

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실