검증 가능한 보상을 활용한 강화학습을 위한 다단계 우도비 교정 (Multi-Step Likelihood-Ratio Correction)
요약
본 연구는 LLM의 추론 능력 향상을 위한 RLVR(Reinforcement Learning with Verifiable Rewards) 과정에서 발생하는 PPO 대리 목적 함수의 구조적 편향 문제를 해결하고자 합니다. $N$-step forward trace를 도입한 NFPO 알고리즘을 통해 PPO와 정확한 정책 경사 사이의 간극을 메우고, 편향-분산 트레이드오프를 효과적으로 제어합니다. 실험 결과, NFPO는 표준 PPO보다 더 타이트한 정책 개선 경계를 생성하며 추론 벤치마크에서 일관된 성능 향상을 입증했습니다.
핵심 포인트
- PPO 대리 목적 함수가 가진 국소적 근사 및 구조적 편향 문제 지적
- 다음 $N-1$개 토큰의 누적 우도비를 활용한 $N$-step forward trace 개념 도입
- 마스킹된 정책 경사 프레임워크에 통합된 NFPO(N-Step Forward-Trace Policy Optimization) 제안
- 적절한 $N$값 선택을 통해 편향-분산 트레이드오프를 제어하고 정책 개선 경계 최적화
- 추론 벤치마크 실험을 통한 NFPO의 성능 우위 검증
검증 가능한 보상을 활용한 강화학습 (Reinforcement Learning with Verifiable Rewards, RLVR)은 대규모 언어 모델 (Large Language Models, LLMs)의 추론 능력을 향상시키는 데 중추적인 역할을 합니다. 그러나 널리 사용되는 PPO 대리 목적 함수 (PPO surrogate objectives)는 정확한 정책 경사 (Policy Gradient) 목적 함수의 국소적 근사 (Local approximation)에 의존하기 때문에 근본적으로 국소적입니다. 이러한 근사는 중요도 샘플링 (Importance Sampling)에 의해 유발되는 분산 (Variance)을 줄여 안정성을 개선하지만, 대리 목적 함수에 구조적 편향 (Structural bias)을 도입하며, 이는 신뢰 영역 (Trust region) 메커니즘을 통해 제어되어야 합니다. 본 연구에서는 다음 $N-1$개 토큰의 누적 우도비 (Cumulative likelihood ratio)를 사용하여 PPO 대리 목적 함수를 확장하는 $N$-step forward trace를 소개합니다. 이 아이디어를 바탕으로, 우리는 $N$-step forward trace를 마스킹된 정책 경사 (Masked policy gradient) 프레임워크에 통합하는 실용적인 RLVR 알고리즘인 $N$-Step Forward-Trace Policy Optimization (NFPO)를 제안합니다. NFPO는 PPO 대리 목적 함수와 정확한 정책 경사 목적 함수 사이의 연속적인 가교를 제공하며, 편향-분산 트레이드오프 (Bias-variance trade-off)를 제어하기 위한 원칙적인 메커니즘을 제공합니다. 우리의 이론적 분석에 따르면, $N$을 적절하게 선택할 경우 제안된 목적 함수는 표준 PPO 대리 함수보다 더 타이트한 정책 개선 경계 (Policy-improvement bound)를 생성합니다. 종합적인 추론 벤치마크에 대한 실험은 NFPO가 성능을 일관되게 향상시킨다는 것을 보여주며, 이는 우리의 이론적 발견을 뒷받침합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기