RL2ML: 강화학습에서 최대 가능도(Maximum Likelihood)로의 유한 롤아웃 대리 목적 함수 (Finite-Rollout
요약
RLVR 학습 시 발생하는 목적 함수와 확률적 업데이트 기하학 간의 불일치 문제를 해결하기 위한 RL2ML 프레임워크를 제안합니다. 유한 롤아웃 환경에서 편향되지 않은 그래디언트 추정기를 통해 표준 RL과 최대 가능도 학습을 연속적으로 연결합니다.
핵심 포인트
- 편향되지 않은 그래디언트 추정기를 갖춘 RL2ML 제품군 개발
- 그룹 수준 업데이트 스케일을 통한 임계 전이 현상 규명
- 대리 목적 함수 선택 시 메트릭, 민감도, 분산의 공동 의존성 확인
- 목적 함수 최적화를 1차원 최적화 문제로 공식화
검증 가능한 보상 (Verifiable Rewards)을 이용한 정답 기반 강화학습 (RLVR)은 샘플링된 출력에 대한 이진 피드백 (binary feedback)을 통해 언어 모델을 학습시키지만, 기대값(expectation) 하에서 최적화되는 목적 함수와 유한 롤아웃 그룹 (finite rollout groups)에 의해 유도되는 확률적 업데이트 기하학 (stochastic update geometry)은 종종 혼동되곤 합니다. 본 논문은 폐쇄형 (closed-form)의 정확히 편향되지 않은 (exactly unbiased) 그래디언트 추정기 (gradient estimator)를 갖춘 유한 롤아웃 대리 목적 함수 (finite-rollout surrogate objectives) 제품군인 RL2ML을 개발합니다. 이 제품군은 고정된 롤아웃 예산 (rollout budget) 하에서 추정기-목적 함수 정렬 (estimator-objective alignment)을 유지하면서, 표준 강화학습 (Reinforcement Learning), 최대 가능도 유사 학습 (maximum-likelihood-like training), 그리고 최대 가능도를 넘어서는 목적 함수들을 연속적으로 연결합니다. 우리는 롤아웃 그룹의 경험적 성공 횟수가 관찰된 후 해당 그룹이 어떻게 재가중치(reweighted)되는지를 특징짓기 위해 그룹 수준 업데이트 스케일 (group-level update scale)을 도입하며, 이를 통해 모집단 수준 (population-level)의 목적 함수 표기법만으로는 숨겨져 있던 임계 미만-임계 초과 (subcritical-supercritical) 업데이트 스케일 전이를 밝혀냅니다. 이러한 구분을 바탕으로, 보정된 메트릭 이득 분석 (calibrated metric-gain analysis)과 정확한 분산 분해 (exact variance decomposition)를 통해 대리 목적 함수의 최적의 선택은 최대 가능도와의 근접성이나 모집단 수준의 가중치에 의해서만 결정되지 않음을 보여줍니다. 대신, 이는 평가 메트릭 (evaluation metric), 국소 민감도 (local sensitivity), 그리고 추정기 분산 (estimator variance)에 공동으로 의존합니다. 따라서 대리 목적 함수 제품군에 남아 있는 자유도는 제약 없는 하이퍼파라미터 (unconstrained hyperparameter)로 취급되는 대신, 1차원 최적화 문제 (one-dimensional optimization problem)로 공식화될 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기