arXiv논문2026. 05. 18. 20:02

결과가 갈리는 지점 학습: 확률적 청크 마스킹을 통한 효율적인 VLA 강화학습 (RL)

요약

VLA(Vision-Language-Action) 모델의 강화학습 과정에서 발생하는 막대한 그래디언트 계산 비용을 줄이기 위한 확률적 청크 마스킹(PCM) 기법을 제안합니다. PCM은 성공과 실패를 가르는 핵심적인 단계에만 계산 자원을 집중함으로써, 모델의 성능 저하 없이 학습 속도와 메모리 효율성을 획기적으로 개선합니다.

핵심 포인트

GRPO 기반 VLA 강화학습에서 그래디언트 계산이 전체 시간의 약 78%를 차지하는 주요 병목 지점임을 확인했습니다.
성공과 실패가 갈리는 지점의 액션 분산을 활용하여 학습에 유용한 의미론적 단계를 식별합니다.
확률적 청크 마스킹(PCM)은 보상 모델이나 별도의 크리틱 없이도 효율적인 그래디언트 할당이 가능합니다.
PCM 적용 시 표준 GRPO 대비 실제 학습 시간을 2.38배 단축하고 피크 활성화 메모리를 60% 절감했습니다.

강화학습 (Reinforcement Learning, RL)은 작업 성공을 직접적으로 최적화함으로써 시각-언어-행동 (Vision-Language-Action, VLA) 정책이 학습 분포를 넘어 일반화할 수 있도록 하지만, 사후 학습 (post-training)은 계산 비용이 많이 듭니다. 이에 대한 자연스러운 대응은 더 빠른 시뮬레이터와 월드 모델 (world models)을 통해 롤아웃 수집 (rollout collection) 속도를 높이는 것이었습니다. GRPO 기반 VLA RL 연구에서 우리는 주요 비용이 다른 곳에 있음을 발견했습니다. 실험 결과, 롤아웃 수집은 단계당 실제 시간 (wall-clock time)의 약 21%만을 차지하는 반면, 그래디언트 계산 (gradient computation)이 약 78%를 차지합니다. 그래디언트 비용이 지배적인 이유는 이 계산의 상당 부분이 학습에 거의 기여하지 않는 단계에 소비되기 때문입니다. GRPO의 학습 신호는 어드밴티지 분산 (advantage variance)에 의해 구동됩니다. 즉, 성공한 롤아웃과 실패한 롤아웃이 갈라지는 단계에서만 학습 신호가 생성됩니다. 그러나 GRPO는 롤아웃 내의 모든 청크 (chunk)에 동일한 어드밴티지를 할당합니다. 그 결과, 액터 업데이트 (actor-update) 계산이 사전 학습 (pre-training) 및 지도 미세 조정 (supervised fine-tuning) 이후 정책이 이미 처리할 수 있는 단계를 포함하여 궤적 (trajectory) 전체에 걸쳐 균등하게 소비됩니다.

본 논문은 궤적당 확률적으로 선택된 소수의 청크 서브셋에 그래디언트 계산을 할당하는 GRPO의 드롭인 (drop-in) 수정 방식인 확률적 청크 마스킹 (Probabilistic Chunk Masking, PCM)을 제시합니다. PCM은 단계별 그래디언트 분산 (per-phase gradient variance)의 롤아웃 유도 프록시 (proxy)인 성공-실패 액션 분산 (success-failure action variance)을 사용하여 의미론적 단계 (semantic phases)를 점수화하고, 온라인으로 업데이트되는 단계별 유지 확률 (phase-level keep probabilities)을 통해 고정된 청크 예산을 샘플링합니다. 우리는 그래디언트 계산이 유용한 지점을 결정하는 양으로서 단계별 그래디언트 분산을 공식화하고, 성공-실패 액션 분산이 이를 측정 가능한 프록시로 제공함을 보여줍니다. PCM은 보상 모델 (reward model)이나 학습된 크리틱 (learned critic)을 필요로 하지 않습니다. 세 가지 LIBERO 벤치마크에서 PCM은 표준 GRPO의 최종 성공률과 일치하면서도, 궤적 청크의 20% 미만을 역전파 (backpropagating)하면서 2.38배의 실제 시간 단축, 4.8배 빠른 그래디언트 업데이트, 그리고 60% 낮은 피크 활성화 메모리 (peak activation memory)를 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

결과가 갈리는 지점 학습: 확률적 청크 마스킹을 통한 효율적인 VLA 강화학습 (RL)

요약

핵심 포인트

댓글