Guided Action Flow: Flow-Matching 시각-언어-행동 (VLA) 정책을 위한 Q-가이드 추론
요약
Flow-matching 기반의 시각-언어-행동(VLA) 정책에서 모델 재학습 없이 테스트 시간 가이드를 적용하는 Guided Action Flow 프레임워크를 제안합니다. 동결된 SmolVLA 정책에 행동-청크 비평가를 결합하여 로봇 조작 작업의 성공률을 유의미하게 향상시켰습니다.
핵심 포인트
- 사전 학습된 SmolVLA 정책을 동결한 상태로 유지하며 테스트 시간 가이드 적용 가능
- 학습된 행동-청크 비평가를 사용하여 역시간 흐름 샘플러를 가이드함
- LIBERO 조작 작업 평가 결과, 특정 조건에서 성공률을 최대 86%까지 향상
- 비평가의 일반화 능력과 불확실성 인지 가이드가 향후 해결 과제로 남음
Flow-matching 시각-언어-행동 (Vision-Language-Action, VLA) 정책은 반복적인 수송 과정 (iterative transport process)을 통해 로봇 행동 청크 (action chunks)를 생성하며, 이는 기본 정책을 재학습시키지 않고도 테스트 시간 가이드 (test-time guidance)를 적용할 수 있는 기회를 제공합니다. 우리는 Guided Action Flow에서 이 기회를 연구합니다. 이 프레임워크는 사전 학습된 SmolVLA 정책을 동결 (frozen) 상태로 유지하면서, 학습된 행동-청크 비평가 (action-chunk critic)를 사용하여 역시간 흐름 샘플러 (reverse-time flow sampler)를 가이드합니다. 비평가는 실제 성공 및 실패 롤아웃 (rollouts)으로부터 학습되며, 동결된 SmolVLA 언어 경로의 작업 설명 특징 (task-description features)을 조건으로 사용할 수 있고, 샘플링 과정 중 행동 그래디언트 (action gradients)를 통해서만 사용됩니다. 우리는 LIBERO 조작 작업에서 이 접근 방식을 평가합니다. 단일 작업 비평가는 하나의 시드 윈도우 (seed window)에서 성공률을 68.0%에서 82.0%로, 다른 시드에서는 82.0%에서 86.0%로 향상시킵니다. 다중 패밀리 작업 설명 비평가는 검증 성공률을 46.0%에서 56.0%로 향상시키는 반면, 잠긴 홀드아웃 테스트 (locked held-out test) 이득은 65.0%에서 67.5%로 양수이지만 완만합니다. 이러한 결과는 동결된 flow-matching VLA 정책에 대한 Q-가이드 추론 (Q-guided inference)의 타당성을 뒷받침하는 동시에, 비평가의 일반화 (generalization)와 불확실성 인지 가이드 (uncertainty-aware guidance)가 여전히 핵심적인 병목 현상임을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기