본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 05. 14:06

Max@K 정책 경사(Policy Gradients)를 위한 어드밴티지 추정(Advantage Estimates)에 관하여

요약

희소한 보상 문제를 해결하기 위해 Max@K 정책 경사를 최적화하는 새로운 어드밴티지 추정 방식을 제안합니다. L2O(Leave-Two-Out) 베이스라인을 통해 편향되지 않으면서도 정확하게 중심화된 어드밴티지를 계산하여 LLM 사후 학습의 효율성을 높입니다.

핵심 포인트

  • Max@K 목적 함수를 위한 새로운 정책 경사 추정기 제안
  • L2O 베이스라인 도입으로 그래디언트 분산 감소 및 성능 향상
  • LLM 사후 학습을 위한 그룹 기반 강화학습과의 자연스러운 통합
  • 기존 어드밴티지 추정기들에 대한 통합적 관점 제공

검증 가능한 보상 (verifiable rewards)을 사용하는 강화학습 (Reinforcement learning)은 사후 학습 (post-training) 추론 모델에 널리 사용되지만, 희소한 결과 보상 (sparse outcome rewards)은 탐색 (exploration)을 어렵게 만듭니다. 이를 보완하는 접근 방식은 pass@K 및 max@K와 같은 추론 시간 목적 함수 (inference-time objectives)를 직접 최적화하는 것이지만, 이러한 목적 함수를 위한 기존의 정책 경사 (policy-gradient) 추정기들은 서로 다른 신호 (signals), 베이스라인 (baselines), 그리고 정규화 (normalizations)를 사용하기 때문에 그 관계가 불분명합니다. 우리는 베이스라인 설계 (baseline design)와 어드밴티지 중심화 (advantage centering)를 통해 이 문제를 연구합니다. 해당 분야의 선도적인 방법론의 어드밴티지 추정기 (advantage estimator)에서 시작하여, 그것이 정책 경사 (policy-gradient) 측면에서 편향되지 않았으나 (unbiased) 중심화되지 않은 어드밴티지 (non-centered advantage)를 생성한다는 것을 보여줍니다. 그런 다음, 우리는 정책 경사 (policy-gradient)의 편향되지 않음 (unbiasedness)을 유지하면서 실제 배치 어드밴티지 (batch advantages)를 정확하게 중심화하는 Leave-Two-Out (L2O) 베이스라인을 도입합니다. 결과물인 MaxPO는 효율적인 이차 시간 (quadratic-time) 구현을 가지며, LLM 사후 학습 (post-training)을 위한 그룹 기반 강화학습 (group-based RL)에 자연스럽게 통합됩니다. 나아가 우리는 max@K를 위한 정형적인 유한 배치 어드밴티지 (canonical finite-batch advantage)를 도출하여, 기존 어드밴티지 추정기들에 대한 통합된 관점을 제공합니다. 실험적으로, 우리는 L2O 베이스라인이 그래디언트 분산 (gradient variance)을 줄이고 중심화되지 않은 대안들보다 성능이 뛰어남을 검증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0