arXiv논문2026. 06. 18. 12:06

STARE: 정책 엔트로피 안정성을 위한 놀람도 기반 토큰 수준 이득 재가중치 부여

요약

GRPO 강화학습 과정에서 발생하는 정책 엔트로피 붕괴 문제를 해결하기 위해 STARE 알고리즘을 제안합니다. 놀람도(Surprisal) 기반의 토큰 수준 이득 재가중치를 통해 안정적인 탐색과 활용의 균형을 유지하며 모델의 추론 성능을 향상시킵니다.

핵심 포인트

GRPO 학습 중 발생하는 정책 엔트로피 붕괴 문제 식별
놀람도 분위수를 활용한 토큰 수준의 선택적 이득 재가중치 적용
목표 엔트로피 폐루프 게이트를 통한 안정적인 RL 학습 구현
AIME 벤치마크에서 기존 베이스라인 대비 4%-8% 성능 향상

검증 가능한 보상 (Verifiable Rewards)을 사용하는 강화학습 (RL) 알고리즘인 GRPO는 LLM의 복잡한 추론을 위한 지배적인 사후 학습 (post-training) 패러다임으로 부상했으나, 일반적으로 학습 과정 중 정책 엔트로피 붕괴 (policy entropy collapse) 문제를 겪습니다. 본 연구에서는 GRPO 하에서의 토큰 수준 엔트로피 역학에 대한 1차 그래디언트 분석 (first-order gradient analysis)을 수행하여 토큰 수준의 신용 할당 불일치 (credit assignment mismatch)를 식별했습니다. 즉, 토큰당 엔트로피 변화는 궤적 수준의 이득 (trajectory-level advantage)과 다음 토큰 분포에 대한 엔트로피 민감도 함수 (entropy sensitivity function)의 곱으로 분해되며, 이는 이득-놀람도 (advantage-surprisal) 4분면 구조와 준임계성 (near-criticality) 특성을 나타냅니다. 이에 착안하여, 우리는 배치 내부의 놀람도 분위수 (surprisal quantiles)를 통해 엔트로피 임계 토큰 부분 집합을 식별하고, 이들의 유효 이득을 선택적으로 재가중하며, 안정적인 엔트로피 조절을 위해 목표 엔트로피 폐루프 게이트 (target-entropy closed-loop gate)를 통합하는 STARE (Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability)를 제안합니다. 1.5B에서 32B에 이르는 모델 규모와 세 가지 작업군 (Short CoT, Long CoT, Multi-Turn Tool Use) 전반에 걸쳐, STARE는 정책 엔트로피를 목표 범위 내로 유지하면서 수천 단계 동안 안정적인 RL 학습을 지속합니다. AIME24 및 AIME25에서 STARE는 DAPO 및 기타 경쟁력 있는 베이스라인보다 평균 정확도 면에서 4%-8% 더 높은 성능을 보였으며, 반성 토큰 (reflection tokens)과 응답 길이가 함께 증가하는 것을 확인했습니다. 이는 지속적인 탐색-활용 (exploration-exploitation) 균형을 나타내며 RL 학습 잠재력을 더욱 끌어올립니다. 코드는 https://github.com/hp-luo/STARE 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

STARE: 정책 엔트로피 안정성을 위한 놀람도 기반 토큰 수준 이득 재가중치 부여

요약

핵심 포인트

댓글