CF-VLA: 비전-언어-행동 정책 (VLA) 을 위한 효율적인 거칠고 세밀한 행동 생성
요약
본 논문은 비전-언어-행동(VLA) 정책의 행동 생성 효율성 문제를 해결하기 위해 CF-VLA를 제안합니다. 기존 VLA 모델이 복잡한 다단계 추론으로 인해 실시간 환경에서 비효율적이었던 한계를 극복하고자, 행동 생성을 '거친 초기화 단계'와 '세밀한 로컬 리파인먼트 단계'의 2단계 구성으로 재구성했습니다. CF-VLA는 거친 예측기를 통해 구조화된 시작점을 구축하고, 이를 기반으로 잔차 오류를 수정하는 단일 단계 리파인먼트를 수행하여, 기존 방법 대비 현저히 낮은 계산 비용(NFE)에서 높은 성능과 효율성을 동시에 달성했음을 입증했습니다.
핵심 포인트
- CF-VLA는 행동 생성을 거친 초기화와 세밀한 로컬 리파인먼트의 2단계 프로세스로 재구성하여 효율성을 높였습니다.
- 거친 단계에서는 엔드포인트 속도에 대한 조건부 후행분포를 학습하고, 세밀한 단계에서 고정 시간 리파인먼트를 수행합니다.
- 제안된 방법은 기존 대비 행동 샘플링 지연 시간을 75.4% 줄이는 높은 효율성을 보여주었습니다.
- 실험 결과(CALVIN, LIBERO)에서 낮은 NFE 영역에서도 강력한 성능-효율성 프론티어를 확립하며, 최고 수준의 로봇 성공률을 달성했습니다.
Flow 기반 비전-언어-행동 (Vision-Language-Action, VLA) 정책은 행동 생성에 강력한 표현력을 제공하지만, 근본적인 비효율성을 겪습니다. 정보 없는 가우시안 노이즈에서 행동 구조를 복원하기 위해 다단계 추론이 필요하여, 실시간 제약 하에서 효율성과 품질 간의 트레이드오프가 낮아집니다. 우리는 생성적 행동 모델링에서 시작점의 역할을 재고함으로써 이 문제를 해결합니다. 샘플링 궤적을 짧게 만드는 대신, CF-VLA 를 제안합니다. 이는 거칠고 세밀한 (coarse-to-fine) 2 단계 구성으로, 행동 생성을 '행동 인식형 시작점을 구축하는 거친 초기화 단계'와 그로부터의 잔차 오류를 수정하는 '단일 단계 로컬 리파인먼트'로 재구성합니다. 구체적으로, 거친 단계는 가우시안 노이즈를 구조화된 초기화로 변환하기 위해 엔드포인트 속도 (endpoint velocity) 에 대한 조건부 후행분포 (conditional posterior) 를 학습하며, 세밀한 단계는 이 초기화로부터 고정 시간 리파인먼트를 수행합니다. 훈련을 안정화시키기 위해 먼저 제어된 거친 예측기 (controlled coarse predictor) 를 학습한 다음 합동 최적화 (joint optimization) 를 수행하는 단계별 전략 (stepwise strategy) 을 도입합니다. CALVIN 과 LIBERO 에서의 실험 결과, 저 NFE (Number of Function Evaluations) 영역에서 우리 방법은 강력한 효율성-성능 프론티어 (efficiency-performance frontier) 를 확립했습니다: 기존 NFE=2 방법보다 일관되게 우수하며, 여러 지표에서 NFE=10 $π_{0.5}$ 베이스라인과 맞먹거나 이를 능가합니다. 행동 샘플링 지연 시간을 75.4% 줄이고, 평균 실제 로봇 성공률 83.0% 를 달성하여 MIP 보다 19.5 포인트, $π_{0.5}$ 보다 4.0 포인트 높은 성과를 보였습니다. 이러한 결과는 구조화된 거칠고 세밀한 생성이 강력한 성능과 효율적인 추론을 동시에 가능함을 시사합니다. 코드는 https://github.com/EmbodiedAI-RoboTron/CF-VLA 에서 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기