arXiv논문2026. 06. 25. 11:45

FORCE: 가치 보정 웜업(Value-Calibrated Warm-up) 및 자기 증류(Self-Distillation)를 통한 효율적인

요약

VLA 모델의 미세 조정 시 발생하는 불안정한 Q-함수와 낮은 샘플 효율성 문제를 해결하기 위한 3단계 프레임워크 FORCE를 제안합니다. 가치 보정 웜업과 자기 증류 기술을 통해 학습 안정성을 높이고 인간의 개입 없이도 높은 성공률을 달성했습니다.

핵심 포인트

가치 보정 웜업을 통한 Q-함수의 분포 변화 완화
고가치 액션 필터링을 통한 효율적인 정책 업데이트
기존 RL 방법 대비 성공률 10% 향상 및 학습 속도 32.5% 가속
인간의 개입 없는 자율적인 로봇 에이전트 학습 가능

Vision-Language-Action (VLA) 모델은 종종 최적화되지 않은 데이터로 인해 발생하는 모방의 한계(imitation ceiling)에 의해 제약을 받습니다. 강화학습 (Reinforcement Learning (RL)) 미세 조정은 이러한 한계를 넘어설 수 있지만, 샘플 효율성 (sample efficiency)이 매우 낮다는 문제로 악명이 높습니다. 이러한 도전 과제는 두 가지 핵심 문제에서 발생합니다: (1) 불안정한 Q-함수 (Q-function)로 인한 치명적인 초기 언러닝 (unlearning), (2) 저품질 탐사 데이터로 인한 비효율적인 정책 업데이트로 인해 종종 비용이 많이 드는 인간의 개입에 의존해야 하는 문제. 우리는 이 두 가지 문제를 모두 해결하여 미세 조정을 안정화하는 3단계 프레임워크인 FORCE를 소개합니다. FORCE는 먼저 온-폴리시 롤아웃 (on-policy rollouts)을 활용하여 Q-함수의 분포 변화 (distributional shift)를 완화하는 가치 보정 웜업 (Value-Calibrated Warm-Up) 단계를 통합합니다. 이후 온라인 단계 동안, 이 보정된 Q-함수는 정책 자체의 액션 제안과 전문가 데이터를 모두 위한 필터 역할을 하여, 높은 가치를 가진 액션만이 정책 업데이트에 사용되도록 보장합니다. 우리는 다양한 시뮬레이션 및 실제 환경 작업에서 FORCE를 평가하였으며, 그 결과 FORCE는 성공률에서 79%의 절대적 향상을 달성하고 이전의 RL 방법들보다 10% 더 우수한 성능을 보이면서도 학습 속도를 32.5% 가속화함을 보여주었습니다. 결정적으로, FORCE는 흔히 발생하는 성공률 저하를 완화하며 인간의 개입 없이 이러한 견고한 성능을 달성하였고, 이는 유능하고 자율적인 로봇 에이전트를 배치하기 위한 중요한 진전을 의미합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FORCE: 가치 보정 웜업(Value-Calibrated Warm-up) 및 자기 증류(Self-Distillation)를 통한 효율적인

요약

핵심 포인트

댓글