arXiv논문2026. 06. 05. 14:06

Max@K 정책 경사(Policy Gradients)를 위한 어드밴티지 추정(Advantage Estimates)에 관하여

요약

희소한 보상 문제를 해결하기 위해 Max@K 정책 경사를 최적화하는 새로운 어드밴티지 추정 방식을 제안합니다. L2O(Leave-Two-Out) 베이스라인을 통해 편향되지 않으면서도 정확하게 중심화된 어드밴티지를 계산하여 LLM 사후 학습의 효율성을 높입니다.

핵심 포인트

Max@K 목적 함수를 위한 새로운 정책 경사 추정기 제안
L2O 베이스라인 도입으로 그래디언트 분산 감소 및 성능 향상
LLM 사후 학습을 위한 그룹 기반 강화학습과의 자연스러운 통합
기존 어드밴티지 추정기들에 대한 통합적 관점 제공

검증 가능한 보상 (verifiable rewards)을 사용하는 강화학습 (Reinforcement learning)은 사후 학습 (post-training) 추론 모델에 널리 사용되지만, 희소한 결과 보상 (sparse outcome rewards)은 탐색 (exploration)을 어렵게 만듭니다. 이를 보완하는 접근 방식은 pass@K 및 max@K와 같은 추론 시간 목적 함수 (inference-time objectives)를 직접 최적화하는 것이지만, 이러한 목적 함수를 위한 기존의 정책 경사 (policy-gradient) 추정기들은 서로 다른 신호 (signals), 베이스라인 (baselines), 그리고 정규화 (normalizations)를 사용하기 때문에 그 관계가 불분명합니다. 우리는 베이스라인 설계 (baseline design)와 어드밴티지 중심화 (advantage centering)를 통해 이 문제를 연구합니다. 해당 분야의 선도적인 방법론의 어드밴티지 추정기 (advantage estimator)에서 시작하여, 그것이 정책 경사 (policy-gradient) 측면에서 편향되지 않았으나 (unbiased) 중심화되지 않은 어드밴티지 (non-centered advantage)를 생성한다는 것을 보여줍니다. 그런 다음, 우리는 정책 경사 (policy-gradient)의 편향되지 않음 (unbiasedness)을 유지하면서 실제 배치 어드밴티지 (batch advantages)를 정확하게 중심화하는 Leave-Two-Out (L2O) 베이스라인을 도입합니다. 결과물인 MaxPO는 효율적인 이차 시간 (quadratic-time) 구현을 가지며, LLM 사후 학습 (post-training)을 위한 그룹 기반 강화학습 (group-based RL)에 자연스럽게 통합됩니다. 나아가 우리는 max@K를 위한 정형적인 유한 배치 어드밴티지 (canonical finite-batch advantage)를 도출하여, 기존 어드밴티지 추정기들에 대한 통합된 관점을 제공합니다. 실험적으로, 우리는 L2O 베이스라인이 그래디언트 분산 (gradient variance)을 줄이고 중심화되지 않은 대안들보다 성능이 뛰어남을 검증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Max@K 정책 경사(Policy Gradients)를 위한 어드밴티지 추정(Advantage Estimates)에 관하여

요약

핵심 포인트

댓글