VIMPO: LLM을 위한 가치-암시적 정책 최적화 (Value-Implicit Policy Optimization)
요약
VIMPO는 비평가(critic) 학습 없이도 정밀한 신용 할당이 가능한 새로운 강화학습 방법론을 제안합니다. KL-정규화된 최적성 조건에서 도출된 정책-암시적 가치 함수를 통해 GRPO의 한계를 극복하고 추론 성능을 높였습니다.
핵심 포인트
- 비평가 학습 없이 가치 함수를 도출하는 critic-free 방식 제안
- GRPO 대비 정밀한 신용 할당을 통해 추론 능력 향상
- MATH-500, AIME 등 수학적 RLVR 벤치마크에서 우수한 성능 입증
- 노이즈가 있는 보상 환경에서도 GRPO 대비 일관된 우위 유지
검증 가능한 보상 (verifiable rewards)을 활용한 강화학습 (Reinforcement learning)은 대규모 언어 모델 (LLMs)의 추론 능력을 향상시키는 핵심 도구가 되었으나, 현재의 방법론들은 단순성과 신용 할당 (credit assignment) 사이의 트레이드오프 문제에 직면해 있습니다. GRPO와 같은 그룹 상대적 (Group-relative) 방법들은 비평가 (critic) 학습을 피하지만, 일반적으로 모든 토큰에 궤적 수준 (trajectory-level)의 이점 (advantage)을 할당합니다. 액터-크리틱 (Actor-critic) 방법들은 더 조밀한 학습 신호를 제공하지만, 자체적인 학습 불안정성을 가진 학습된 가치 함수 (value function)를 필요로 합니다. 우리는 KL-정규화된 강화학습 (KL-regularized reinforcement learning)의 최적성 조건으로부터 정책-암시적 가치 함수 (policy-implied value function)를 도출하는 비평가 없는 (critic-free) 정책 최적화 방법인 VIMPO를 소개합니다. 자기회귀 생성 (autoregressive generation)의 경우, 결과적인 가치 재귀 (value recurrence)는 정책-참조 로그 비율 (policy-reference log-ratios)로 작성될 수 있으며, 궤적의 끝에는 더 이상의 미래 보상이 남지 않는다는 종단 조건 (terminal condition)에 의해 고정됩니다. 이는 비평가를 학습시키지 않고도 결과 수준의 검증 가능한 보상을 통합하는 단순한 가치 손실 (value loss)을 제공합니다. 동일한 유도 과정을 통해 비평가 없는 액터 이점 (actor advantage) 또한 도출되며, 이를 통해 VIMPO는 가치 손실을 통한 보상 통합과 PPO 스타일의 액터 업데이트를 통한 정책 개선을 분리할 수 있습니다. 수학적 RLVR 벤치마크에서 VIMPO는 MATH-500, AIME 2024, AIME 2025, OlympiadBench 전반에 걸쳐 GRPO보다 성능을 향상시켰으며, 특히 경시 대회 스타일의 평가에서 더 큰 이득을 보였습니다. 노이즈가 있는 보상 환경에서도 VIMPO는 GRPO 대비 일관된 우위를 유지하며, 이는 정책-암시적 가치 최적화가 비평가 없는 학습의 실용적인 단순성을 유지하면서도 더 미세한 신용 할당을 제공할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기