arXiv논문2026. 05. 04. 20:01

균일-정확 정책 최적화: RLVR 의 다양성 무관성에 대한 돌파

요약

본 논문은 강화학습(RLVR) 모델이 단일 시도 정확도는 높지만, 다중 샘플 커버리지(Pass@K)에서 다양성 붕괴를 겪는 문제를 분석하고 해결책을 제시합니다. 기존 RL 목표 함수가 올바른 해답들의 확률 분포에 무관하여 발생하는 '자기 강화 붕괴' 메커니즘을 공식화했습니다. 이를 바탕으로, 정책의 올바른 해답 분포에 조건부 균일성 페널티를 추가한 '균일-정확 정책 최적화(UCPO)' 기법을 제안합니다. UCPO는 다양성을 유지하면서도 높은 정확도를 달성하여 여러 수학 추론 벤치마크에서 성능 향상을 입증했습니다.

핵심 포인트

RLVR 모델은 Pass@1은 높으나, 다중 샘플 커버리지(Pass@K)에서 다양성 붕괴를 겪는 문제가 있다.
이러한 붕괴는 기존 RL 목표 함수가 올바른 해답들의 확률 질량 분포에 무관하기 때문에 발생한다.
제안된 '균일-정확 정책 최적화(UCPO)'는 정책의 올바른 해답 분포에 조건부 균일성 페널티를 추가하여 붕괴 문제를 해결한다.
UCPO는 다양성을 개선하면서도 Pass@1을 유지하며, 수학 추론 벤치마크에서 높은 성능 향상을 보였다.

검증 가능한 보상 (Verifiable Rewards) 을 활용한 강화학습 (RLVR) 은 추론 작업의 단일 시도 정확도 (Pass@1) 에서 상당한 성과를 거두었으나, 종종 다중 샘플 커버리지 (Pass@K) 가 감소하여 다양성 붕괴를 겪는 경우가 많습니다. 우리는 이러한 열화의 구조적 원인을 식별했습니다: 일반적인 RLVR 목표 함수인 GRPO 와 같은 것들은 올바른 해답들 사이의 확률 질량 분포에 무관합니다. 확률적 학습 역학 (stochastic training dynamics) 이 결합되면, 이는 확률 질량이 좁은 올바른 출력 하위 집합에 집중되고 대안적인 유효한 해답들은 억제되는 자기 강화 붕괴 (self-reinforcing collapse) 를 유발합니다.

우리는 이 붕괴 메커니즘을 공식화하고, 두 보완적 기준인 견고성 (robustness) 과 엔트로피 정규화 최적성 (entropy-regularized optimality) 하에서 최적 정책 구조를 추가로 특징화했습니다. 이는 균일-정확 정책 (Uniform-Correct Policy) 을 유일하게 최적으로 식별합니다.

이 분석을 바탕으로, 우리는 GRPO 의 수정인 균일-정확 정책 최적화 (UCPO) 를 제안합니다. UCPO 는 정책의 올바른 해답에 대한 분포에 조건부 균일성 페널티를 추가합니다. 이 페널티는 확률 질량이 부족하게 표현된 올바른 응답으로 기울기 신호를 재분배하여, 올바른 집합 내에서 확률 질량의 균일 할당을 장려합니다.

UCPO 는 세 가지 모델 (1.5B~7B 파라미터) 과 다섯 가지 수학적 추론 벤치마크에서 Pass@K 와 다양성을 개선하면서도 경쟁력 있는 Pass@1 을 유지하며, AIME24 에서 Pass@64 에 최대 +10% 절대적 성능 향상과 올바른 집합 내에서 최대 45% 높은 방정식 수준 (equation-level) 다양성을 달성했습니다. 코드는 https://github.com/AnamikaLochab/UCPO 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

균일-정확 정책 최적화: RLVR 의 다양성 무관성에 대한 돌파

요약

핵심 포인트

댓글