둘은 하나보다 낫다: 붕괴 없는 다중 보상 RLIF 학습 프레임워크
요약
기존 RLIF 방식의 보상 해킹과 엔트로피 붕괴 문제를 해결하기 위해 다중 보상 프레임워크를 제안합니다. 정답 수준 보상과 완성 수준 보상을 결합하고 GDPO 및 KL-Cov 정규화를 적용하여 안정적인 학습을 구현했습니다.
핵심 포인트
- 단일 보상 의존으로 인한 엔트로피 붕괴 및 보상 해킹 문제 해결
- 클러스터 투표 기반 정답 보상과 토큰 단위 자기 확신도 보상 결합
- GDPO 기반 정규화로 보상 규모 불균형 완화
- KL-Cov 정규화를 통한 탐색 보존 및 후기 단계 붕괴 방지
- 외부 정답 없이도 지도 학습 기반 RLVR 수준의 성능 달성
검증 가능한 보상을 이용한 강화학습 (RLVR, Reinforcement learning with verifiable rewards)은 LLM (Large Language Models)의 추론 능력을 실질적으로 향상시켰으나, 종종 인간의 주석(human annotations)이나 정답(gold-standard solutions)과 같은 외부 감독에 의존합니다. 내부 피드백을 통한 강화학습 (RLIF, Reinforcement learning from internal feedback)은 모델 자체에서 추출된 신호를 사용하여 확장 가능한 비지도(unsupervised) 대안으로 최근 부상했습니다. 그러나 기존의 RLIF 방법들은 일반적으로 단일 내부 보상에 의존하며, 이는 보상 해킹 (reward hacking), 엔트로피 붕괴 (entropy collapse), 그리고 추론 구조의 저하를 초래할 수 있습니다. 우리는 학습 신호를 두 가지 상호 보완적인 구성 요소로 분해하는 다중 보상 RLIF 프레임워크를 제안합니다: 클러스터 투표 (cluster voting)에 기반한 정답 수준 보상(answer-level reward)과 토큰 단위 자기 확신도 (token-wise self-certainty)에 기반한 완성 수준 보상(completion-level reward)입니다. 이러한 신호들을 견고하게 결합하기 위해, 우리는 보상 규모의 불균형을 줄이는 GDPO 기반 정규화 (GDPO-based normalization)를 적용합니다. 나아가, 우리는 불균형한 엔트로피 감소를 유발하는 저엔트로피 토큰 분포를 대상으로 하는 KL-Cov 정규화 (KL-Cov regularization)를 도입하여, 탐색 (exploration)을 보존하고 후기 단계의 붕괴를 방지합니다. 수학적 추론 및 코드 생성 벤치마크 전반에 걸쳐, 우리의 방법은 기존의 비지도 RL 접근 방식보다 안정성과 견고함을 개선하는 동시에, 지도 학습 기반의 RLVR 방법과 유사한 성능을 달성합니다. 이러한 결과는 상호 보완적인 내부 보상이 표적 정규화와 결합될 때, 외부의 정답(ground-truth) 감독에 의존하지 않고도 안정적인 장기 추론 (long-horizon reasoning)을 지원할 수 있음을 보여줍니다. 코드는 곧 공개될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG (Machine Learning)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기