arXiv논문2026. 05. 22. 11:29

클리핑 병목 현상: 근경계 신호의 확률적 복구를 통한 RLVR 안정화

요약

RLVR 학습 과정에서 발생하는 클리핑 병목 현상을 분석하고, 이를 해결하기 위한 NSR(Near-boundary Stochastic Rescue) 기법을 제안합니다. 근경계 신호를 확률적으로 복구함으로써 학습 안정성을 높이고 모델의 추론 성능을 개선합니다.

핵심 포인트

하드 클리핑이 RLVR 학습의 주요 병목 현상임을 식별
근경계 신호 복구를 위한 NSR(Near-boundary Stochastic Rescue) 제안
확률적 섭동을 통해 결정론적 방식보다 우수한 성능 입증
7B~30B 모델 및 MoE 아키텍처에서 범용적 효과 검증

검증 가능한 보상을 활용한 강화학습 (Reinforcement Learning with Verifiable Rewards, RLVR)은 LLM (Large Language Model) 추론 능력을 확장하기 위한 핵심 패러다임으로 부상했으나, 그 최적화 과정에서 종종 학습 불안정성과 차선의 수렴 (suboptimal convergence) 문제를 겪습니다. 클리핑 (clipping) 기반의 GRPO 스타일 목적 함수를 체계적으로 분석한 결과, 우리는 하드 클리핑 (hard clipping)에 의해 유도되는 경직된 클리핑 결정이 연구된 RLVR 설정에서 주요한 실질적 병목 현상임을 확인했습니다. 구체적으로, 우리의 분석은 정보가 풍부한 신호들이 클리핑 임계값 바로 너머의 근경계 (near-boundary) 영역에 존재할 수 있으며, 따라서 표준 하드 클리핑 규칙에 의해 버려진다는 점을 시사합니다. 특히, 이 병목 현상이 정확히 식별되면, 경계에서의 단순한 확률적 섭동 (stochastic perturbations)만으로도 의미 있는 성능 향상을 회복할 수 있습니다. 이러한 발견을 바탕으로, 우리는 손실된 신호를 복구하기 위해 경계 밖으로 약간 벗어난 토큰들을 확률적으로 유지하는 최소한의 플러그 앤 플레이 (plug-and-play) 수정 방식인 근경계 확률적 구조 (Near-boundary Stochastic Rescue, NSR)를 제안합니다. NSR은 확률적 샘플링 (stochastic sampling)을 통해 기대값 측면에서 암시적 그래디언트 감쇠 (implicit gradient decay)를 유도하는 것으로 해석될 수 있지만, 우리의 절제 연구 (ablations) 결과에 따르면 확률적이고 경계 국소적인 (boundary-local) 구조 메커니즘이 결정론적 그래디언트 감쇠보다 일관되게 더 효과적임을 보여줍니다. 7B에서 30B 규모의 모델과 Dense 및 MoE (Mixture of Experts) 아키텍처 모두에 걸친 광범위한 실험을 통해 검증된 NSR은, 플러그 앤 플레이 솔루션으로서 학습 안정성을 실질적으로 개선하며 DAPO 및 GSPO와 같은 강력한 베이스라인 대비 일관된 성능 향상을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

클리핑 병목 현상: 근경계 신호의 확률적 복구를 통한 RLVR 안정화

요약

핵심 포인트

댓글