커리큘럼 강화학습 (Curriculum Reinforcement Learning)은 베이스 모델을 넘어 LLM의 추론 능력을 유도할 수 있는가
요약
기존 RLVR 방식이 베이스 모델의 기존 지식 내에서 확률만 재배분하는 한계를 극복하기 위해 '경계 인식 커리큘럼 강화학습'을 제안합니다. 이 방식은 모델의 추론 능력 경계를 파악하고 그 너머의 패턴을 학습시켜 pass@1과 pass@k 성능을 모두 향상시킵니다.
핵심 포인트
- 기존 RLVR은 베이스 모델의 추론 능력 경계를 확장하는 데 한계가 있음
- 경계 인식 커리큘럼 RL은 모델의 추론 경계를 파악하고 교사 가이드를 적용함
- Qwen, Llama, DeepSeek 모델에서 pass@1 및 pass@256 성능 향상 입증
- 베이스 모델 대비 pass@256 지표가 평균 9.8%p 향상됨
검증 가능한 보상 (Verifiable Rewards, RLVR)을 활용한 강화학습 (Reinforcement Learning)은 대규모 언어 모델 (Large Language Models, LLMs)을 지속적으로 개선하기 위한 유망한 경로로 널리 간주됩니다. 그러나 최근 연구들에 따르면, 주류 RLVR은 종종 베이스 모델에 이미 존재하는 궤적 (Trajectories) 사이에서 샘플링 확률을 재배분하는 경향이 있습니다. 이는 더 높은 pass@1 점수로 나타나는 샘플링 효율성을 개선할 수는 있지만, 이득은 제한적이며 k가 클 경우 pass@k 점수를 오히려 감소시킬 수도 있습니다. 따라서 베이스 모델의 추론 능력 경계 (Reasoning capacity boundary)를 확장하는 데 실패할 수 있습니다. 본 논문에서는 베이스 모델의 추론 능력 경계를 넘어서기 위한 경계 인식 커리큘럼 강화학습 (Boundary-aware Curriculum RL) 접근 방식을 제시합니다. 우리의 접근 방식은 먼저 pass@k 샘플링을 사용하여 현재의 추론 능력 경계를 파악한 다음, 해당 경계 근처 또는 경계 너머에 있는 예제들에 타겟팅된 교사 가이드 (Teacher guidance)를 적용하고, 마지막으로 강화학습 (RL)을 사용하여 새롭게 도입된 추론 패턴을 공고히 합니다. Qwen, Llama, DeepSeek 베이스 모델 전반에 걸쳐, 경계 인식 커리큘럼 강화학습 (Boundary-aware Curriculum RL)은 pass@1 점수와 pass@256 점수를 모두 향상시켰으며, 여기서 pass@1은 단일 시도 성능을 반영하고 pass@256은 추론 능력 경계에 대한 경험적 대리 지표 (Empirical proxy) 역할을 합니다. 실험 결과, 평균 pass@256은 베이스 모델 대비 9.8%포인트, Vanilla RLVR 대비 10.3%포인트 향상되었습니다. 이러한 결과는 경계 인식 커리큘럼 강화학습 (Boundary-aware Curriculum RL)이 LLM이 베이스 모델의 경험적 추론 능력 경계를 넘어 지속적으로 개선될 수 있는 확장 가능한 경로를 제공할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기