Z-1: 시각-언어-행동 (VLA) 모델을 위한 효율적인 강화학습 (RL)

시각-언어-행동 (Vision-Language-Action, VLA) 모델은 언어 지시, 시각적 관찰, 그리고 연속적인 제어를 연결함으로써 로봇 조작을 위한 유망한 프레임워크를 제공합니다. 그러나 기존의 대부분의 정책 (policy)은 고정된 시연 (demonstration)으로부터의 행동 복제 (behavior cloning) 또는 지도 미세 조정 (supervised fine-tuning, SFT)에 의해 제한되어 있으며, 이는 정책 자체의 실패로부터 개선될 수 있는 기회를 제한적으로 제공합니다. 본 논문에서는 flow 기반 VLA 모델을 위한 강화학습 (reinforcement learning, RL) 사후 학습 (post-training) 프레임워크인 Z-1을 제시합니다. $π_{0.5}$를 기반으로 구축된 Z-1은 SFT를 위해 공개적으로 출시된 RoboCasa 시연만을 사용하며, 이후 24개의 표준 RoboCasa 태스크에 대해 태스크별 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO) 전략을 적용합니다. 온라인 최적화의 효율성과 안정성을 높이기 위해, Z-1은 공유 접두사 롤아웃 구축 (shared-prefix rollout construction), 트리 구조 궤적 분기 (tree-structured trajectory branching), 완료 인지 보상 보정 (completion-aware reward calibration), 그리고 VLM과 Action Expert의 선택적 공동 학습 (selective joint training)을 결합합니다. 24개의 모든 RoboCasa 태스크에 대해, Z-1은 평균 80.6%의 성공률을 달성하였으며, 이는 SFT 초기화 상태보다 13.2%포인트 향상된 수치이며 기존에 발표된 SOTA 모델들을 능가합니다. 이러한 결과는 체계적인 GRPO 사후 학습이 추가적인 비공개 시연 없이도 flow 기반 VLA 정책을 실질적으로 개선할 수 있음을 보여줍니다.

Insights

Z-1: 시각-언어-행동 (VLA) 모델을 위한 효율적인 강화학습 (RL)

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들