Group Relative Policy Optimization의 정책 경사(Policy Gradient) 기초에 관하여: 신용
요약
GRPO의 정책 경사 유도 과정을 통해 출력 전용 보상 환경에서 발생하는 신용 할당(credit assignment) 문제를 분석합니다. 그룹 크기와 관계없이 경사 행렬의 유효 계수가 2로 수렴하는 현상을 증명하며 GRPO의 이론적 한계를 규명합니다.
핵심 포인트
- GRPO의 정책 경사 정리에 대한 엄밀한 이론적 유도 제공
- 출력 전용 보상 시 토큰 수준의 신용 할당 붕괴 현상 발견
- 경사 행렬의 유효 계수가 약 2로 나타나는 rank-2 구조 입증
- 다단계 추론 시 발생하는 신용 할당 병목 현상 식별
Group Relative Policy Optimization (GRPO)는 그룹화된 롤아웃(rollouts)의 평균 보상을 베이스라인(baseline)으로 사용하여 PPO의 학습된 비평가(critic)를 제거합니다. 우리는 정책 경사 정리(policy gradient theorem)의 제1원리로부터 GRPO의 엄밀한 유도를 제공하며, 근본적인 신용 할당(credit assignment) 실패를 밝혀냅니다. 즉, 출력 전용 보상(output-only reward) 하에서는 롤아웃 내의 모든 토큰이 동일한 어드밴티지(advantage)를 받게 되어, 토큰 수준의 신용이 단일 스칼라(scalar)로 붕괴됩니다. 우리는 이것이 훈련이 진행됨에 따라 심화되는 경사 희소성(gradient sparsity)을 유발함을 증명하며, Nemotron-4B/GSM8K에 대한 GRPO 경사의 SVD 분석을 통해 그룹 크기 $R \in {2, 4, 8}$에 관계없이 경사 행렬의 유효 계수(effective rank)가 $\approx 2$임을 경험적으로 입증합니다. 우리는 이를 어드밴티지의 제로섬 제약(zero-sum constraint)에서 발생하는 본질적인 계수-2(rank-2) 구조로 공식화하고, GRPO의 베이스라인이 최적인 조건을 도출합니다. 우리의 결과는 GRPO의 단순성이 이론적으로 정당화되는 시점을 규명하며, 신용 할당 병목 현상(credit assignment bottleneck)이 다단계 추론(multi-step reasoning)의 핵심적인 한계임을 식별합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기