미래 정책을 활용한 강화학습 최적화 (NPO)
요약
본 논문은 강화학습(RL)의 성능 향상을 위해 '근접 미래 정책 최적화(NPO)'라는 새로운 혼합 정책 기법을 제안합니다. 기존 방법들이 외부 교사나 과거 궤적에 의존하여 발생하는 분포 차이 또는 품질 한계 문제를 해결하고자 합니다. NPO는 현재 학습 중인 정책의 '근접한 미래 시점 체크포인트'를 활용하여 보조 궤적을 생성하며, 이는 현재 정책보다 강력하면서도 외부 소스보다 가까운 장점을 가집니다. 이를 통해 효과적인 학습 신호 $\mathcal{S} = Q/V$를 극대화하고, 실제 모델(Qwen3-VL-8B-Instruct)에서
핵심 포인트
- NPO는 현재 정책의 근접 미래 체크포인트를 활용하여 보조 궤적을 생성하는 혼합 정책 기법입니다.
- 이 방법은 외부 교사 기반 방식보다 분포 차이가 적고, 과거 재현 방식보다 높은 학습 품질을 제공합니다.
- AutoNPO는 온라인 학습 신호를 통해 개입 시점을 자동으로 결정하고 최적의 가이드 체크포인트를 선택하여 NPO를 개선했습니다.
- Qwen3-VL-8B-Instruct 모델에 적용했을 때, NPO는 평균 성능을 57.88에서 62.84로 향상시키고, AutoNPO는 63.15까지 끌어올려 최종 성능 한계를 높였습니다.
강화학습(Reinforcement Learning, RL) 분야에서 검증 가능한 보상을 활용하는 방식(Verifiable Rewards, RLVR)은 핵심적인 후처리 기법으로 자리 잡았습니다. 하지만 이 과정에서 온-정책 탐색(on-policy exploration)에 적절한 오프-정책 궤적(off-policy trajectories)을 주입하는 것이 성능 향상과 수렴 속도 측면에서 중요한 과제로 남아있습니다.
기존의 혼합 정책 방법론들은 두 가지 한계에 직면해 있었습니다. 첫째, 외부 교사(external teachers)로부터 궤적을 가져오는 방식은 품질이 높지만 분포적으로 너무 멀어(distributionally far) 학습 안정성을 해칠 수 있습니다. 둘째, 과거의 학습 궤적을 재활용하는 방식은 근접하지만(close) 그 품질에 한계가 있어 더 이상 성능 향상을 기대하기 어렵습니다.
본 논문에서는 이러한 문제를 해결하기 위해 **근접 미래 정책 최적화 (Near-Future Policy Optimization, NPO)**라는 간단하면서도 효과적인 혼합 정책 방식을 제안합니다. NPO의 핵심 아이디어는 현재 학습 중인 정책 자체의 '근접한 미래 시점 체크포인트(near-future self)'를 보조 궤적 소스로 활용하는 것입니다. 이러한 근접 미래 궤적은 외부 소스보다 분포적으로 가깝고, 단순 과거 궤적보다 더 높은 품질을 가지므로, 궤적 품질과 분산 비용 간의 균형을 효과적으로 맞춥니다.
나아가, NPO를 더욱 발전시킨 AutoNPO라는 적응형 변종(adaptive variant)도 제안합니다. AutoNPO는 온라인 학습 신호(online training signals)를 감지하여 개입 시점을 자동으로 결정하고, 최대의 효과적인 학습 신호 $\mathcal{S} = Q/V$를 극대화하는 최적의 가이드 체크포인트를 선택할 수 있습니다.
실제 실험 결과로, NPO는 Qwen3-VL-8B-Instruct 모델에 GRPO(Generalized Reinforcement Policy Optimization)와 함께 적용되었을 때 평균 성능을 57.88에서 62.84로 크게 향상시켰습니다. 여기에 AutoNPO를 추가 적용하자 성능은 63.15까지 끌어올려, 최종적인 성능 상한선(performance ceiling)을 높이는 동시에 수렴 속도까지 가속화하는 효과를 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기