LLM 추론을 위한 경험 증강 정책 최적화 (Experience Augmented Policy Optimization)
요약
LLM의 추론 능력을 향상시키기 위한 새로운 강화학습 방법론인 EAPO를 제안합니다. 기존 RLVR의 높은 샘플링 비용과 정책 불일치 문제를 해결하기 위해 정책 적응형 경험 주입 방식을 사용합니다.
핵심 포인트
- 기존 RLVR의 높은 샘플링 비용 및 경험 재사용 효율성 문제 해결
- 정책 적응형(policy-adaptive) 방식의 경험 증강 기법 제안
- 변형된 중요도 샘플링을 통한 안정적이고 편향 없는 학습 보장
- Qwen 모델 실험을 통해 기존 RLVR 대비 우수한 추론 성능 입증
검증 가능한 보상(Verifiable Rewards)을 이용한 강화학습(RLVR)은 대규모 언어 모델(LLMs)의 추론 능력을 향상시키기 위한 강력한 패러다임입니다. 그러나 기존의 RLVR 방법들은 일반적으로 처음부터 온-정책(on-policy) 최적화에 의존하기 때문에, 높은 샘플링 비용이 발생하고 축적된 경험의 활용이 비효율적입니다. 모델의 능력과 정책(policy) 행동이 훈련 과정에서 진화함에 따라, 고정된 추론 궤적(reasoning trajectories)을 통해 경험을 재사용하려는 최근의 시도들은 정책 불일치(policy mismatch) 문제로 인해 어려움을 겪습니다. 이러한 한계에 착안하여, 우리는 RLVR에서의 경험이 고정된 추론 궤적으로 재사용되는 것이 아니라, 정책 적응형(policy-adaptive) 방식으로 표현되어야 한다고 주장합니다. 본 연구에서는 사전 강화학습(RL)으로 최적화된 정책을 행동 수준의 경험 사전(action-level experience prior)으로 활용하고, 롤아웃(rollout) 중 중요한 결정 지점에서 경험을 선택적으로 주입하는 경험 증강 정책 최적화(Experience-Augmented Policy Optimization, EAPO)를 제안합니다. 경험이 증강된 롤아웃으로부터 안정적이고 편향되지 않은 학습을 보장하기 위해, EAPO는 변형된 중요도 샘플링(importance sampling) 기법을 추가로 통합합니다. Qwen-2.5-math 7b 및 Qwen-3-8B를 사용하여 5개의 서로 다른 벤치마크에서 수행한 실험 결과, EAPO가 최신 RLVR 방법들보다 추론 성능을 일관되게 향상시킨다는 것을 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기