Z-1: 시각-언어-행동 (VLA) 모델을 위한 효율적인 강화학습 (RL)
요약
Z-1은 시각-언어-행동(VLA) 모델의 성능을 높이기 위한 강화학습(RL) 사후 학습 프레임워크입니다. GRPO 전략과 효율적인 롤아웃 구축 기술을 통해 추가적인 시연 데이터 없이도 로봇 조작 성공률을 크게 향상시켰습니다.
핵심 포인트
- flow 기반 VLA 모델을 위한 RL 사후 학습 프레임워크 Z-1 제안
- GRPO 전략을 활용하여 RoboCasa 태스크에서 성공률 80.6% 달성
- SFT 초기 상태 대비 성공률 13.2%포인트 향상 및 SOTA 경신
- 공유 접두사 롤아웃 및 트리 구조 궤적 분기 등 효율적 최적화 기법 적용
시각-언어-행동 (Vision-Language-Action, VLA) 모델은 언어 지시, 시각적 관찰, 그리고 연속적인 제어를 연결함으로써 로봇 조작을 위한 유망한 프레임워크를 제공합니다. 그러나 기존의 대부분의 정책 (policy)은 고정된 시연 (demonstration)으로부터의 행동 복제 (behavior cloning) 또는 지도 미세 조정 (supervised fine-tuning, SFT)에 의해 제한되어 있으며, 이는 정책 자체의 실패로부터 개선될 수 있는 기회를 제한적으로 제공합니다. 본 논문에서는 flow 기반 VLA 모델을 위한 강화학습 (reinforcement learning, RL) 사후 학습 (post-training) 프레임워크인 Z-1을 제시합니다. $π_{0.5}$를 기반으로 구축된 Z-1은 SFT를 위해 공개적으로 출시된 RoboCasa 시연만을 사용하며, 이후 24개의 표준 RoboCasa 태스크에 대해 태스크별 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO) 전략을 적용합니다. 온라인 최적화의 효율성과 안정성을 높이기 위해, Z-1은 공유 접두사 롤아웃 구축 (shared-prefix rollout construction), 트리 구조 궤적 분기 (tree-structured trajectory branching), 완료 인지 보상 보정 (completion-aware reward calibration), 그리고 VLM과 Action Expert의 선택적 공동 학습 (selective joint training)을 결합합니다. 24개의 모든 RoboCasa 태스크에 대해, Z-1은 평균 80.6%의 성공률을 달성하였으며, 이는 SFT 초기화 상태보다 13.2%포인트 향상된 수치이며 기존에 발표된 SOTA 모델들을 능가합니다. 이러한 결과는 체계적인 GRPO 사후 학습이 추가적인 비공개 시연 없이도 flow 기반 VLA 정책을 실질적으로 개선할 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기