arXiv논문2026. 06. 18. 11:46

자체 솔루션으로부터의 학습: 검증 가능한 보상을 가진 강화학습을 위한 자기 조건부 신용 할당 (Self-Conditioned Credit

요약

GRPO의 토큰별 신용 할당 문제를 해결하기 위해, 검증된 궤적을 활용하여 KL 발산을 그래디언트 가중치로 사용하는 SC-GRPO를 제안합니다. 수학, 코드 등 다양한 벤치마크에서 기존 방식보다 높은 성능과 강력한 OOD 성능을 입증했습니다.

핵심 포인트

GRPO의 모든 토큰 균등 신용 할당 문제 지적
검증된 궤적을 활용한 자기 조건부 신용 할당(SC-GRPO) 제안
KL 발산을 그래디언트 곱셈 가중치로 활용
수학, 코드, 에이전트 작업 등 5개 벤치마크에서 성능 향상 증명
기존 GRPO 및 DAPO 대비 우수한 OOD 성능 확인

검증 가능한 보상을 사용하는 강화학습 (RLVR, Reinforcement Learning with Verifiable Rewards)은 추론 작업을 위한 LLM (Large Language Models) 학습에 상당한 진전을 가져왔으나, GRPO와 같은 대표적인 방법들은 모든 토큰에 균등한 신용 (credit)을 할당하여, 일상적인 토큰에는 그래디언트 (gradient)를 낭비하는 반면 핵심적인 추론 단계에는 신용을 충분히 부여하지 못하는 문제가 있습니다. 기존의 토큰 수준 신용 할당 (token-level credit assignment) 방법들은 모델 자체의 롤아웃 (rollouts) 이상의 자원을 필요로 합니다. GRPO 변형 모델들은 프로세스 보상 모델 (process reward models)이나 정답 (ground-truth answers)에 의존합니다. 지식 증류 (Knowledge distillation)는 토큰당 발산 (per-token divergence)을 통해 신용을 할당하지만, 외부 교사 (On-Policy Distillation) 또는 특권 정보 (On-Policy Self Distillation)를 필요로 합니다. 그러나 이러한 의존성은 순수한 RLVR 설정에서의 적용 가능성을 제한합니다. 우리는 모델을 자체 검증된 궤적 (verified trajectories)에 조건화 (conditioning)하는 것이 원래의 분포와 조건화된 분포 사이에 측정 가능한 토큰당 KL 발산 (KL divergence)을 유도한다는 것을 관찰하였으며, 검증된 궤적으로 구축된 자기 교사 (self-teacher)로부터 증류하는 것이 여러 검증된 궤적이 존재할 때 실행 불가능한 가중 평균 솔루션 (weighted-average solutions)으로 이어진다는 것을 증명했습니다. 우리는 앞서 언급한 KL 발산을 GRPO 그래디언트에 대한 곱셈 가중치로 사용하는 SC-GRPO (Self-Conditioned GRPO)를 제안합니다. 수학, 코드, 에이전트 (agentic) 작업을 아우르는 5개의 벤치마크에 걸쳐, SC-GRPO는 GRPO 대비 8.1%, DAPO 대비 5.9% 더 높은 성능을 일관되게 보여주었으며 더 강력한 OOD (Out-of-Distribution) 성능을 나타냈습니다. 또한, SC-GRPO는 OPD보다 더 높은 성능을 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

자체 솔루션으로부터의 학습: 검증 가능한 보상을 가진 강화학습을 위한 자기 조건부 신용 할당 (Self-Conditioned Credit

요약

핵심 포인트

댓글