온도를 내재화하기: 강화학습 (Reinforcement Learning)을 위한 정책 재가열(Policy Reheater)로서의 온-폴리시
요약
강화학습 과정에서 발생하는 엔트로피 붕괴 문제를 해결하기 위해 모델 파라미터 내부에 온도를 내재화하는 TS-OPSD 기법을 제안합니다. 이 방법은 외부 교사 없이 모델의 로짓에 높은 온도를 적용해 자기 증류함으로써 탐색 능력을 복원합니다.
핵심 포인트
- 엔트로피 붕괴로 인한 학습 신호 감소 문제 해결
- TS-OPSD를 통한 경량 정책 재가열(Policy Reheating) 제안
- 외부 데이터나 추가 추론 비용 없이 자기 증류 수행
- Qwen3 모델 실험을 통해 추론 능력 보존 및 성능 입증
검증 가능한 보상 (verifiable rewards)으로부터의 강화학습 (Reinforcement learning)은 대규모 언어 모델 (Large Language Models)의 추론 능력을 향상시키지만, 점차 집중되는 정책이 롤아웃 (rollout)의 다양성과 유용한 학습 신호를 감소시키는 엔트로피 붕괴 (entropy collapse) 현상을 자주 겪습니다. 기존의 해결책들은 강화학습 (RL) 목적 함수를 제한하거나 (예: 엔트로피 정규화 (entropy regularization)), 롤아웃 (rollout) 수집 중에 샘플링 온도 (sampling temperature)를 조정하지만, 이러한 개입은 모델 파라미터 (model parameters) 외부에 머물러 있습니다. 우리는 온도의 탐색적 효과를 모델 파라미터 내부로 내재화하는 경량 정책 재가열 (policy reheating) 방법인 온도 스케일링 온-폴리시 자기 증류 (Temperature-Scaled On-Policy Self-Distillation, TS-OPSD)를 제안합니다. 엔트로피가 붕괴된 RL 체크포인트 (checkpoint)에서 시작하여, TS-OPSD는 모델 자체의 로짓 (logits)에 높은 온도의 스케일링을 적용하여 자기 교사 (self-teacher)를 구축한 다음, 그 결과로 나타나는 더 부드러운 분포를 학생 (student) 모델로 다시 증류 (distill)합니다. 이 정책 재가열 (policy reheating)은 외부 교사 (external teacher), 특권 데이터 (privileged data), 또는 추가적인 추론 비용 (inference cost)을 필요로 하지 않습니다. Qwen3-4B-Base 및 Qwen3-8B-Base에 대한 실험 결과, 정책 재가열 (policy reheating)이 표준적인 지속적 RL (continued RL) 및 롤아웃 수준의 온도 재가열 (rollout-level temperature reheating)보다 지속적 RL을 위한 더 강력한 초기화 (initialization)를 제공함을 보여줍니다. 추가 분석에 따르면, TS-OPSD는 중간 표현 (intermediate representations), 상위 후보 집합 (top candidate sets), 그리고 추론 능력 (reasoning capability)을 보존하면서 주로 출력의 날카로움 (output sharpness)을 감소시킵니다. 이러한 결과는 엔트로피 복원 (entropy restoration)이 추론 지향적 RL (reasoning-oriented RL)을 확장하기 위한 간단한 붕괴 후 개입 (post-collapse intervention) 역할을 할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기