정밀 엔트로피 곡선 제어를 통한 LLM 강화학습 성능 포화 현상 해결
요약
본 논문은 대형 언어 모델(LLMs)의 강화학습(RL) 학습 과정에서 발생하는 성능 포화 문제를 해결하기 위한 새로운 방법인 Entrocraft를 제안합니다. 기존 RL 알고리즘들이 겪는 엔트로피 붕괴 문제를 다루기 위해, Entrocraft는 거부 표본 추출 기반으로 사용자 정의 엔트로피 스케줄을 구현하며 목적 함수 정규화나 이득 추정기에 의존하지 않습니다. 실험 결과, Entrocraft는 LLM의 일반화 능력과 출력 다양성을 크게 개선하여 성능 포화 문제를 효과적으로 해결함을 입증했습니다.
핵심 포인트
- LLMs의 RL 학습은 엔트로피 붕괴로 인해 성능 포화(performance saturation) 문제가 발생한다.
- 제안된 Entrocraft는 거부 표본 추출(rejection-sampling)을 사용하여 목적 함수 정규화 없이 사용자 정의 엔트로피 스케줄을 구현한다.
- Entrocraft는 기존 RL 방법론의 한계를 극복하고, LLM의 일반화 및 출력 다양성을 크게 향상시킨다.
- 실험적으로 Entrocraft는 4B 모델이 8B 기준선을 능가하게 하고 pass@K를 50% 높이는 등 우수한 성능 개선을 보였다.
강화학습 (Reinforcement Learning, RL) 은 대형 언어 모델 (Large Language Models, LLMs) 에 복잡한 추론 능력을 부여했습니다. 그러나 대부분의 RL 알고리즘은 RL 학습이 확장됨에 따라 추가적인 이득을 얻지 못하게 하는 성능 포화 (performance saturation) 문제를 겪습니다. 이 문제는 RL 에서 탐험 (exploration) 을 위한 핵심 진단 지표인 엔트로피의 붕괴로 특징지어질 수 있습니다. 기존 시도들은 정규화나 클리핑을 통해 엔트로피 붕괴를 막으려 했지만, 그 결과 얻어진 엔트로피 곡선은 장기적으로 불안정성을 보이며 성능 향상을 방해합니다. 본 논문에서는 편향 (bias) 을 주어 사용자 정의 엔트로피 스케줄을 실현하는 간단한 거부 표본 추출 (rejection-sampling) 접근법인 Entrocraft 를 소개합니다. Entrocraft 는 목적 함수 정규화가 필요 없으며, 이득 추정기 (advantage-estimator) 에 독립적입니다. 이론적으로 우리는 최소한의 가정 하에서 단계별 엔트로피 변화를 이득 분포와 관련지었으며, 이는 기존 RL 및 엔트로피 보존 방법의 동작을 설명합니다. Entrocraft 는 또한 엔트로피 스케줄에 대한 체계적인 연구를 가능하게 하며, 여기서 높은 값으로 시작하여 약간 낮은 목표값으로 감소하는 선형 어닐링 (linear annealing) 이 가장 잘 작동함을 발견했습니다. 경험적으로 Entrocraft 는 성능 포화 문제를 해결하여 일반화, 출력 다양성 및 장기 학습을 크게 개선합니다. 이는 4B 모델이 8B 기준선을 능가하도록 하며, 평탄화되기 전까지 개선 효과를 4 배 더 오래 유지하며, 기준선 대비 pass@K 를 50% 높입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기