ExpRL: LLM 미드 트레이닝(Mid-Training)을 위한 탐색적 강화학습 (Exploratory RL)
요약
ExpRL은 LLM의 추론 능력 향상을 위해 탐색적 강화학습을 활용한 미드 트레이닝 기법을 제안합니다. 참조 데이터를 직접 모방하는 대신 보상 스캐폴드로 사용하여, 모델이 스스로 유용한 추론 경로를 탐색하고 조밀한 보상을 받도록 유도합니다.
핵심 포인트
- 참조 데이터를 보상 루브릭으로 활용하여 모델의 자율적 탐색 유도
- 결과 및 과정 수준의 조밀한 보상을 통해 유용한 중간 추론 단계 강화
- 수학 추론 작업에서 SFT 및 기존 GRPO 방식보다 뛰어난 성능 입증
- 후속 희소 보상 RL을 위한 최적의 초기화 상태 제공
희소 보상 강화학습 (Sparse reward reinforcement learning, RL)은 LLM의 추론 능력을 향상시키기 위한 표준적인 도구가 되었으나, 그 성공 여부는 베이스 모델 (base model)이 보유한 커버리지 (coverage)에 결정적으로 달려 있습니다. 실제로 모델들은 분해 (decomposition), 검증 (verification), 또는 자기 수정 (self-correction)과 같은 유용한 원시 기술 (primitive skills)을 가르치는 정제된 추론 흔적 (reasoning traces)을 통한 미드 트레이닝 (mid-training)을 통해 RL을 위한 준비를 마치는 경우가 많습니다. 이 전략은 효과적이긴 하지만, 모델이 무엇을 배워야 하는지를 수동으로 지정해야 하며, 이러한 원시적 커버리지가 이러한 기술들을 더 넓은 해결 전략으로 결합해야 하는 훨씬 더 어려운 문제들에 충분한지는 여전히 불분명합니다. 우리는 더 자동화된 접근 방식인, 인간이 작성한 질의응답 데이터의 대규모 코퍼스 (corpora)를 사용하는 RL 기반 미드 트레이닝 (RL-based mid-training)을 연구합니다. 참조 솔루션 (reference solutions)을 모방해야 할 목표로 취급하는 대신, 우리의 방법인 ExpRL은 이를 보상 스캐폴드 (reward scaffolds)로 사용합니다. 즉, 참조 데이터는 정책 (policy)으로부터 숨겨지며, 온-정책 (on-policy) 추론 흔적을 판단하기 위한 문제별 채점 루브릭 (grading rubrics)을 구축하는 데에만 사용됩니다. 정책은 원래의 문제 프롬프트 (prompt)로부터 샘플링을 수행하며, LLM 판사 (LLM judge)는 샘플링된 추론 흔적을 참조 솔루션과 비교하여 결과 수준 (outcome-level) 또는 과정 수준 (process-level)의 조밀한 보상 (dense rewards)을 할당합니다. 이를 통해 ExpRL은 희소한 최종 정답 보상 (sparse final-answer rewards)이 가중치를 높이는 데 실패하기 쉬운 부분적인 진전, 유용한 중간 단계의 축소, 그리고 생산적인 추론 행동을 강화할 수 있습니다. 도전적인 수학 추론 작업에서 ExpRL은 SFT, 희소 보상 GRPO (sparse-reward GRPO), 그리고 자기 증류 (self-distillation)보다 더 강력한 RL 프라이밍 (RL priming)을 제공하며, 후속적인 희소 보상 RL을 위한 더 나은 초기화 (initialization)를 제공합니다. 추가적인 혼합 도메인 실험은 ExpRL이 원래의 수학 전용 설정을 넘어 확장될 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기