arXiv논문2026. 05. 07. 13:01

EP-GRPO: 결과적 진행에 기반한 엔트로피·진행 정렬 그룹 상대 정책 최적화 및 암시적 프로세스 안내

요약

본 논문은 LLM 추론의 한 방법인 그룹 상대 정책 최적화(GRPO)가 겪는 세 가지 주요 문제점(균일한 토큰 수준, 균일한 극성, 제로 분산 붕괴)을 분석하고 이를 해결하기 위한 새로운 프레임워크인 엔트로피·진행 정렬 GRPO(EP-GRPO)를 제안합니다. EP-GRPO는 엔트로피 게이트드 조절을 통해 높은 정보적 가치를 가진 결정 전환점을 강조하며, 결과 기반의 방향성 피드백과 누적 엔트로피 매핑을 통합하여 학습 효율성과 정확도를 크게 향상시킵니다.

핵심 포인트

기존 GRPO는 토큰 수준의 균일한 정보 처리, 단계별 극성의 문제, 그리고 제로 분산 붕괴와 같은 한계를 가집니다.
EP-GRPO는 엔트로피 게이트드 조절을 도입하여 모델이 높은 불확실성(정보적 전환점)을 보이는 결정에 집중하도록 유도합니다.
결과적 이점을 기반으로 방향성을 제공하는 암시적 프로세스 신호를 생성하여 학습의 질을 높입니다.
누적 엔트로피 매핑을 통해 제로 보상 분산 상황에서도 안정적인 기울기 흐름을 유지할 수 있습니다.

검증 가능한 보상 (RLVR) 을 활용한 강화 학습, 특히 그룹 상대 정책 최적화 (GRPO) 는 LLM 추론의 발전에 기여했습니다. 그러나 GRPO 는 세 가지 크레딧 할당 실패를 겪습니다: 이질적인 정보적 가치를 무시하는 균일한 토큰 수준粒度, 올바른 단계는 패널티하고 잘못된 단계는 보상을 주는 균일한 극성 (polarity), 그리고 결과에 따른 기울기를 소멸시키는 제로 분산 붕괴 (zero-variance collapse). 우리는 이러한 실패를 체계적으로 정량화하여, 매우 불균형한 토큰 정보성, 광범위한 단계 수준 극성 오정렬, 그리고 상당한 학습 낭비를 드러냈습니다. 이러한 한계를 해결하기 위해, 모델의 내재적 정보 흐름을 밀집된 자기지도 안내를 위한 엔트로피·진행 정렬 GRPO (EP-GRPO) 를 제안합니다. EP-GRPO 는 엔트로피 게이트드 조절을 통합하여 높은 엔트로피 결정 전환점을 우선시하고, 결과적 이점 (outcome advantages) 에 기반한 정책 분산으로부터 방향성 토큰 수준 피드백을 위한 암시적 프로세스 신호를 제공하며, 제로 보상 분산 하에서도 자연스럽게 기울기 흐름을 유지하는 누적 엔트로피 매핑을 통합합니다. 수학 추론 벤치마크에 대한 광범위한 실험은 EP-GRPO 가 GRPO 와 그 변형에 비해 우수한 정확도와 효율성을 달성함을 보여줍니다. 코드는 곧 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

EP-GRPO: 결과적 진행에 기반한 엔트로피·진행 정렬 그룹 상대 정책 최적화 및 암시적 프로세스 안내

요약

핵심 포인트

댓글