FORCE: 가치 보정 웜업(Value-Calibrated Warm-up) 및 자기 증류(Self-Distillation)를 통한 효율적인
요약
VLA 모델의 미세 조정 시 발생하는 불안정한 Q-함수와 낮은 샘플 효율성 문제를 해결하기 위한 3단계 프레임워크 FORCE를 제안합니다. 가치 보정 웜업과 자기 증류 기술을 통해 학습 안정성을 높이고 인간의 개입 없이도 높은 성공률을 달성했습니다.
핵심 포인트
- 가치 보정 웜업을 통한 Q-함수의 분포 변화 완화
- 고가치 액션 필터링을 통한 효율적인 정책 업데이트
- 기존 RL 방법 대비 성공률 10% 향상 및 학습 속도 32.5% 가속
- 인간의 개입 없는 자율적인 로봇 에이전트 학습 가능
Vision-Language-Action (VLA) 모델은 종종 최적화되지 않은 데이터로 인해 발생하는 모방의 한계(imitation ceiling)에 의해 제약을 받습니다. 강화학습 (Reinforcement Learning (RL)) 미세 조정은 이러한 한계를 넘어설 수 있지만, 샘플 효율성 (sample efficiency)이 매우 낮다는 문제로 악명이 높습니다. 이러한 도전 과제는 두 가지 핵심 문제에서 발생합니다: (1) 불안정한 Q-함수 (Q-function)로 인한 치명적인 초기 언러닝 (unlearning), (2) 저품질 탐사 데이터로 인한 비효율적인 정책 업데이트로 인해 종종 비용이 많이 드는 인간의 개입에 의존해야 하는 문제. 우리는 이 두 가지 문제를 모두 해결하여 미세 조정을 안정화하는 3단계 프레임워크인 FORCE를 소개합니다. FORCE는 먼저 온-폴리시 롤아웃 (on-policy rollouts)을 활용하여 Q-함수의 분포 변화 (distributional shift)를 완화하는 가치 보정 웜업 (Value-Calibrated Warm-Up) 단계를 통합합니다. 이후 온라인 단계 동안, 이 보정된 Q-함수는 정책 자체의 액션 제안과 전문가 데이터를 모두 위한 필터 역할을 하여, 높은 가치를 가진 액션만이 정책 업데이트에 사용되도록 보장합니다. 우리는 다양한 시뮬레이션 및 실제 환경 작업에서 FORCE를 평가하였으며, 그 결과 FORCE는 성공률에서 79%의 절대적 향상을 달성하고 이전의 RL 방법들보다 10% 더 우수한 성능을 보이면서도 학습 속도를 32.5% 가속화함을 보여주었습니다. 결정적으로, FORCE는 흔히 발생하는 성공률 저하를 완화하며 인간의 개입 없이 이러한 견고한 성능을 달성하였고, 이는 유능하고 자율적인 로봇 에이전트를 배치하기 위한 중요한 진전을 의미합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기