arXiv논문2026. 05. 21. 10:52

Group Relative Policy Optimization에서의 Advantage Collapse: 진단 및 완화

요약

GRPO 알고리즘에서 그룹 내 보상이 균질할 때 발생하는 Advantage Collapse(이득 붕괴) 현상을 진단하고 해결하는 방법을 다룹니다. 새로운 진단 지표인 ACR(Advantage Collapse Rate)을 도입하여 학습 정체를 예측하고, 이를 완화하기 위해 가상 보상 샘플을 주입하는 AVSPO 알고리즘을 제안합니다.

핵심 포인트

GRPO의 주요 실패 모드인 Advantage Collapse(이득 붕괴) 현상 정의 및 분석
학습 배치의 비효율성을 정량화하는 새로운 지표인 ACR(Advantage Collapse Rate) 도입
추가적인 모델 Rollout 없이도 학습을 지속할 수 있는 경량 확장 버전인 AVSPO 제안
AVSPO를 통해 Advantage Collapse를 58-63% 감소시키고 모델 성능을 4-6% 향상

Group Relative Policy Optimization (GRPO)는 Reinforcement Learning from Verifiable Rewards (RLVR) 프레임워크 내에서 두드러지는 알고리즘으로, 대규모 언어 모델 (LLMs)의 추론 능력을 향상시키는 데 강력한 성과를 거두었습니다. 그러나 GRPO는 Advantage Collapse (이득 붕괴) 현상에 취약합니다. 이는 그룹 내의 균질한 보상(예: 모든 답변이 정답이거나 모두 오답인 경우)이 거의 0에 가까운 Advantage (이득)와 소멸하는 Gradient (기울기)를 생성하는 실패 모드입니다. 이를 해결하기 위해, 우리는 비효율적인 Gradient를 가진 학습 배치(batch)의 비율을 정량화하는 최초의 진단 지표인 Advantage Collapse Rate (ACR)를 도입합니다. 수학적 추론 벤치마크에서 0.5B에서 14B 파라미터 규모의 모델들을 대상으로 실험한 결과, ACR이 학습 정체와 최종 성능을 강력하게 예측함을 보여줍니다. 이어서 우리는 Adaptive Virtual Sample Policy Optimization (AVSPO)를 제안합니다. 이는 GRPO의 경량 확장 버전으로, 실시간 ACR 모니터링을 통해 가이드되는 가상 보상 샘플(virtual reward samples)을 주입함으로써, 추가적인 모델 Rollout (롤아웃) 없이도 균질한 그룹으로부터 학습할 수 있게 합니다. AVSPO는 GRPO 대비 Advantage Collapse를 58-63% 감소시키며, 모든 모델 규모에서 4-6% 포인트의 일관된 정확도 향상을 가져오는 동시에, 평가된 Out-of-domain (도메인 외) 작업에서의 일반화 성능을 유지합니다. 코드와 데이터셋은 https://qingyonghu.github.io/AVSPO 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Group Relative Policy Optimization에서의 Advantage Collapse: 진단 및 완화

요약

핵심 포인트

댓글