LLM 강화학습에서의 균일한 토큰 수준 신뢰 영역을 넘어서
요약
기존 RLVR의 PPO 방식이 가진 위치 무관한 임계값 문제를 해결하기 위해 CPPO를 제안합니다. 위치 가중 임계값과 누적 접두사 예산을 통해 자기회귀적 생성 과정에서의 드리프트 문제를 완화하고 훈련 안정성을 높입니다.
핵심 포인트
- 기존 PPO의 균일한 토큰 임계값 한계 지적
- 자기회귀적 비대칭성 및 누적 접두사 드리프트 문제 해결
- 위치 가중 임계값 도입으로 초기 단계 규제 강화
- 누적 접두사 예산을 통한 동적 편차 제한
- 모델 규모와 상관없이 추론 정확도 및 안정성 향상
검증 가능한 보상을 활용한 강화학습 (RLVR)은 LLM의 추론 능력을 향상시키는 표준이 되었습니다. 그러나 기존의 PPO 스타일 신뢰 영역 (trust-region) 메커니즘은 모든 토큰에 대해 독립적으로 균일한 임계값 (threshold)을 강제함으로써 위치를 고려하지 않는 (position-agnostic) 상태로 남아 있습니다. 이러한 점별 처리 (pointwise treatment) 방식은 두 가지 결정적인 측면에서 자기회귀적 생성 (autoregressive generation)과 충돌합니다. 첫째, 균일한 임계값은 자기회귀적 비대칭성 (autoregressive asymmetry)을 무시합니다. 초기 단계의 편차는 복합적인 시퀀스 수준의 드리프트 (sequence-level drift)를 생성하며, 이로 인해 정적인 임계값은 초기 발산을 과소 규제하고 후기 단계의 탐색 (exploration)을 과도하게 제한하게 됩니다. 둘째, 토큰 수준의 발산 (divergence)을 고립시켜 평가하는 것은 누적된 접두사 드리프트 (cumulative prefix drift)를 간과하며, 조건부 이력 (conditioning history)이 이미 롤아웃 정책 (rollout policy)으로부터 얼마나 멀어졌는지와 관계없이 동일한 발산 허용치를 부여합니다. 이러한 한계를 해결하기 위해, 우리는 두 가지 결합된 메커니즘을 통해 유한 시계 정책 개선 경계 (finite-horizon policy-improvement bound)와 업데이트를 정렬하는 토큰 수준 마스킹 규칙인 CPPO (Cumulative Prefix-divergence Policy Optimization)를 제안합니다. 첫째, 위치 가중 임계값 (position-weighted threshold)은 그 영향이 더 오래 지속되는 초기 위치에 더 엄격한 제한을 가하고, 후기 토큰에 대해서는 제약을 완화합니다. 둘째, 누적 접두사 예산 (cumulative prefix budget)은 과거의 편차를 추적하여, 접두사를 따라 발생하는 복합적인 오류를 방지하기 위해 토큰 수준의 추가적인 편차를 동적으로 제한합니다. 실증적으로, CPPO는 훈련 안정성을 강화하고 다양한 모델 규모에서 추론 정확도를 크게 향상시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기