GRAIL: 검증 가능한 보상을 활용한 강화학습을 위한 그래디언트 재가중치 적용 어드밴티지 (Gradient-Reweighted
요약
GRAIL은 강화학습 시 모든 토큰에 동일한 가중치를 부여하는 기존 방식의 한계를 극복하기 위해 제안된 새로운 그래디언트 재가중치 방법입니다. 그래디언트 활성화 돌출도를 활용하여 추론에 핵심적인 토큰에 더 높은 가중치를 부여함으로써, 프로세스 보상 모델 없이도 모델의 수학적 추론 능력을 향상시킵니다.
핵심 포인트
- GRAIL은 토큰 단위의 어드밴티지 재가중치 기법을 도입함
- 그래디언트 활성화 돌출도를 통해 핵심 토큰에 가중치 집중
- PRM 없이도 미세한 추론 정렬(fine-grained alignment) 가능
- Qwen3, R1-distilled 등에서 GRPO 대비 성능 향상 입증
검증 가능한 보상(verifiable rewards)을 활용한 강화학습(Reinforcement Learning, RL) (예: GRPO)은 현재 대규모 언어 모델(Large Language Models, LLMs)의 수학적 추론 능력을 향상시키는 일반적인 방법입니다. 그러나 현재의 방법들은 대개 모든 토큰에 하나의 시퀀스 수준 어드밴티지(sequence-level advantage)를 방송하거나, 단계별 감독(step-level supervision)을 위해 비용이 많이 드는 프로세스 보상 모델(Process Reward Models, PRMs)을 사용합니다. 균등한 어드밴티지 분포는 모든 토큰이 최종 보상에 동일하게 기여한다고 가정합니다. 이는 잘못된 추론 단계와 의미 없는 단어(filler words)가 유효한 논리적 추론만큼 강력하게 업데이트되므로 그래디언트 신호(gradient signal)를 희석시킵니다. 이를 해결하기 위해, 우리는 내재적인 토큰 단위 어드밴티지 재가중치 방법인 GRAIL(Gradient-Reweighted Advantage)을 소개합니다. GRAIL은 그래디언트 활성화 돌출도(gradient-activation saliency)를 사용하여 최종 정답에 더 국소적으로 민감한 토큰에 더 많은 가중치를 부여합니다. Qwen3, R1-distilled 및 OctoThinker 제품군의 5개 모델에 대한 평가 결과, GRAIL이 GRPO를 일관되게 능가함을 보여주었습니다. GRAIL은 정확도(accuracy)에서 평균 3.60%, Pass@3에서 3.05%의 향상을 달성하였으며, 이는 프로세스 수준의 감독 없이도 미세한 추론 정렬(fine-grained reasoning alignment)을 달성할 수 있음을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기