arXiv논문2026. 05. 14. 04:23

GRPO와 On-Policy Distillation을 넘어: 언어 모델 사후 학습을 위한 경험적 Sparse-to-Dense 보상 원칙

요약

본 기사는 언어 모델 사후 학습 시 데이터 할당의 효율성을 높이는 '보상 밀도(reward-density)' 원칙을 제시합니다. 기존 방식이 간과했던 이 원칙은 희소한 시퀀스 수준 보상은 탐색에, 조밀한 토큰 수준 교사 보상은 행동 압축에 사용해야 함을 강조합니다. 연구진은 Qwen3 및 Llama 모델을 사용하여 검증 가능한 수학 문제에서 '브릿지(Bridge)'를 통한 증류 방식이 기존의 직접적인 GRPO보다 성능이 우수하며, 특히 학생 측 희소 RL 적용 전후로 그 효과가 극대화됨을 입증했습니다.

핵심 포인트

언어 모델 사후 학습 시 데이터 할당은 '보상 밀도' 원칙에 따라 이루어져야 합니다.
희소한 레이블 데이터(Sparse Reward)는 탐색적 행동 학습(Upstream/Teacher-side Discovery)에, 조밀한 교사 감독(Dense Teacher Supervision)은 학생 모델 압축(Downstream/Student Compression)에 사용되어야 합니다.
제안된 '브릿지(Bridge)' 메커니즘을 통해 증류된 RL 개선 방식이 직접적인 GRPO보다 성능 향상 및 안정성이 높습니다.
가장 효과적인 학습 순서는 교사 측 발견(Sparse Reward) $ ightarrow$ 브릿지(Dense Transfer) $ ightarrow$ 학생 측 희소 RL(Sparse Reward)의 단계적 적용입니다.
준비되지 않은 정책(cold student)에 직접적으로 희소 레이블 데이터를 사용하는 것은 피해야 합니다.

레이블이 지정된 검증 가능한(verifiable) 학습 데이터가 제약 사항인 설정에서는, 검증된 각 예시를 신중하게 할당해야 합니다. 표준적인 관행은 이 데이터를 배포될 모델에 직접 사용하는 것이며, 예를 들어 배포용 학생(student) 모델에 GRPO를 실행하는 방식입니다. 우리는 이것이 보상 밀도(reward-density) 원칙을 간과하기 때문에 종종 비효율적인 할당이 된다고 주장합니다. 즉, 희소한 시퀀스 수준 보상(sparse sequence-level reward)은 탐색(exploration)이 생산적인 모델을 학습시키는 데 사용되어야 하며, 조밀한 토큰 수준 교사 보상(dense token-level teacher reward)은 행동을 더 작은 모델로 압축하는 것이 목적인 곳에 사용되어야 합니다. 이러한 관점에서 GRPO 방식의 희소 RL(Sparse RL)과 OPD 방식의 조밀한 교사 감독(dense teacher supervision)은 별개의 레시피가 아니라, 서로 다른 보상 밀도 체계(reward-density regimes)입니다. 할당 규칙은 간단합니다. 희소한 레이블 학습 데이터를 이를 보상 형태의 행동(reward-shaped behavior)으로 전환할 수 있는 가장 강력한 모델에 상류(upstream)에서 사용한 다음, 그 행동을 조밀한 감독으로서 하류(downstream)로 전달하는 것입니다. 우리는 Qwen3 및 Llama 모델을 사용하여 검증 가능한 수학(verifiable math) 문제에서 이 규칙을 평가합니다. 고정된 Qwen3-1.7B 배포용 학생 모델 크기에서, 조밀한 브릿지(dense bridge)를 통해 증류된 RL 개선 8B 교사 모델은 동일한 학생 모델에 대한 직접적인 GRPO보다 성능이 뛰어나지만, RL 적용 전의 동일한 교사로부터의 전이는 성능이 떨어집니다. 브릿지는 중요합니다. 교사 롤아웃(teacher rollouts)에 대한 forward-KL 웜업(warmup)에 이어서 학생 롤아웃(student rollouts)에 대한 OPD를 수행하는 방식은, 브릿지 이후의 학생 측 희소 RL(sparse RL)이 수행되기 전 MATH 데이터셋에서 일관되게 가장 강력한 성능을 보였으며, 표준적인 8B/14B 교사 모델에 대해 Stage 3 AIME 종료 시점에서도 가장 좋은 결과를 제공했습니다. 또한 브릿지는 이후의 학생 측 희소 RL을 효과적으로 만듭니다. 준비되지 않은 학생 모델(cold student)에서 성능이 약했던 GRPO는 브릿지 이후 MATH 점수를 $75.4%$에서 $78.5%$로 끌어올렸으며, 매칭된 리플레이 대조군(matched replay control)보다 $2.8$포인트 앞섰습니다. 운영 원칙은 준비가 가장 덜 된 정책(policy)에 희소한 레이블 데이터를 사용하는 것을 피하는 것입니다. 즉, 교사 측 발견(teacher-side discovery)에는 희소 보상(sparse reward)을 사용하고, 학생 압축(student compression)에는 조밀한 전이(dense transfer)를 사용하며, 학생 측 희소 보상은 브릿지 이후에만 사용하십시오.

AI 자동 생성 콘텐츠

원문 바로가기

GRPO와 On-Policy Distillation을 넘어: 언어 모델 사후 학습을 위한 경험적 Sparse-to-Dense 보상 원칙

요약

핵심 포인트

댓글