arXiv논문2026. 06. 09. 13:08

LLM RL에서의 발산 정규화(Divergence Regularization)에 대한 재고

요약

LLM 강화학습(RL) 시 발생하는 학습-추론 불일치와 정책 노후화 문제를 해결하기 위한 새로운 최적화 방법론인 DRPO를 제안합니다. 기존의 하드 마스크 방식 대신 부드러운 2차 정규화 항을 사용하여 학습 안정성과 효율성을 높였습니다.

핵심 포인트

기존 PPO/GRPO의 비율 클리핑 방식이 가진 한계 지적
하드 마스크 대신 부드러운 어드밴티지 가중 2차 정규화 도입
발산하는 업데이트를 감쇠시키고 경계 너머에서도 교정 신호 제공
다양한 모델 규모와 아키텍처에서 학습 안정성 및 효율성 입증

강화학습 (Reinforcement learning, RL)은 거대 언어 모델 (Large Language Models, LLMs)의 사후 학습 (post-training)에서 핵심적인 구성 요소가 되었습니다. 실제 환경에서 LLM RL은 학습-추론 불일치 (training-inference mismatch)와 정책 노후화 (policy staleness)로 인해 종종 오프-폴리시 (off-policy) 방식으로 진행되며, 이로 인해 안정적인 최적화를 위한 신뢰 영역 (trust-region) 제어가 필수적입니다. PPO 및 GRPO와 같은 주류 방법론들은 비율 클리핑 (ratio-clipping) 메커니즘을 통해 이러한 제어를 근사하지만, 중요도 비율 (importance ratio)은 롱테일 어휘 (long-tailed vocabularies)에서의 분포 변화 (distributional shift)를 나타내는 불충분한 대리 지표가 될 수 있습니다. DPPO와 같은 최근 연구들은 비율 기반 클리핑을 발산 기반 마스크 (divergence-based mask)로 교체함으로써 이러한 불일치를 해결하며, 샘플링된 토큰의 절대적 확률 변화 (absolute probability shift)에 의해 정의되는 신뢰 영역을 생성합니다. 그러나 DPPO는 여전히 하드 마스크 (hard mask)에 의존합니다. 즉, 토큰이 유해한 방향으로 신뢰 영역 경계를 넘어서면, 해당 그래디언트 (gradient)는 교정되는 대신 폐기됩니다. 이를 해결하기 위해, 우리는 하드 마스크를 정책 변화 (policy shift)에 대한 부드러운 어드밴티지 가중 2차 정규화 항 (advantage-weighted quadratic regularizer)으로 대체하는 발산 정규화 정책 최적화 (Divergence Regularized Policy Optimization, DRPO)를 제안합니다. DRPO는 DPPO와 동일한 신뢰 영역 기하학 (trust-region geometry)을 유지하면서도, 발산하는 업데이트를 감쇠시키고 경계 너머에서도 교정 신호를 제공하는 유계된 연속적 그래디언트 가중치 (bounded, continuous gradient weights)를 유도합니다. 다양한 모델 규모, 아키텍처 및 정밀도 설정에 걸친 실험을 통해 DRPO가 LLM RL 학습의 안정성과 효율성을 향상시킨다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM RL에서의 발산 정규화(Divergence Regularization)에 대한 재고

요약

핵심 포인트

댓글