MDP-GRPO: 다중 제약 조건 지시 이행을 위한 안정화된 그룹 상대 정책 최적화
요약
표준 GRPO의 불안정성을 해결하기 위해 제안된 MDP-GRPO 알고리즘에 관한 연구입니다. 다중 온도 샘플링과 이중 앵커 어드밴티지 등을 통해 보상 분포가 균일한 환경에서도 안정적인 학습을 가능하게 합니다.
핵심 포인트
- GRPO의 세 가지 병리 현상(저분산 증폭 등) 식별
- 다중 온도 샘플링을 통한 보상 분산 확보
- 이중 앵커 어드밴티지로 그래디언트 복구
- 전망 이론 기반 셰이핑 및 비대칭 KL 정규화 적용
- Llama-3.2-3B 모델의 제약 조건 준수율 5% 향상
검증 가능한 보상 (verifiable rewards)을 사용하는 강화학습 (Reinforcement learning)은 다중 제약 조건 지시 이행 (multi-constraint instruction following)에 이상적이지만, 표준 그룹 상대 정책 최적화 (GRPO)는 이산적이고 분산이 낮은 보상 환경에서 불안정해집니다. 이러한 환경에서는 그룹 내 보상 분포가 빈번하게 균일하게 나타납니다. 우리는 이러한 상황에서 z-점수 그룹 정규화 (z-score group normalization)가 유발하는 세 가지 병리 현상, 즉 저분산 증폭 (low-variance amplification), 평균 중심화 맹목 (mean-centering blindness), 그리고 제로 분산 붕괴 (zero-variance collapse)를 식별하고 공식화합니다. 이를 해결하기 위해 우리는 다음과 같은 방법을 통해 학습을 안정화하는 MDP-GRPO를 제안합니다: (1) 보상 분산을 높이기 위한 다중 온도 샘플링 (multi-temperature sampling), (2) 균일한 그룹에서 그래디언트 (gradients)를 복구하고 평균 중심화 맹목을 방지하기 위한 이중 앵커 어드밴티지 (dual-anchor advantages), (3) Kahneman과 Tversky의 이론에 기반하여 업데이트를 제한하고 위반 사항에 대해 페널티를 부여하는 전망 이론 기반 셰이핑 (prospect-theoretic shaping), (4) 비대칭 KL 정규화 (asymmetric KL regularization). FollowBench, IFEval, 그리고 선별된 다중 제약 조건 데이터셋에서 평가한 결과, MDP-GRPO는 표준 GRPO보다 성능이 뛰어났으며, Llama-3.2-3B 모델에서 엄격한 제약 조건 준수율을 최대 5.0% 향상시켰습니다. 또한 우리의 방법은 MMLU 및 ARC에서의 일반적인 능력을 유지하면서도 작은 그룹 크기에서도 안정적인 수렴을 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기