arXiv논문2026. 05. 08. 22:37

Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit

요약

본 논문은 기존 강화 학습(RL) 기반 LLM 미세 조정 방법론인 GRPO의 한계를 지적하며, 오직 긍정적인 롤아웃 데이터만을 사용하여 정책을 최적화하는 Positive-Only Policy Optimization (POPO) 기법을 제안합니다. POPO는 제한된 중요 샘플링과 모멘텀 기반 적응 법칙 및 유사성 패널티 항을 결합하여 학습 안정성을 높입니다. 실험 결과, Qwen-Math-7B 모델을 사용하여 수학적 벤치마크(AIME 2025)에서 GRPO보다 우수한 성능을 달성하며 POPO의 효과를 입증했습니다.

핵심 포인트

기존 RL 기반 LLM 미세 조정 방법론인 GRPO는 부정적 롤아웃에 의존하는데, 이는 희소 이진 보상 환경에서 의미 있는 신호를 손상시킬 위험이 있습니다.
제안된 POPO(Positive-Only Policy Optimization)는 오직 양성 롤아웃 데이터만을 사용하여 정책을 최적화하며, 분할 부정적 롤아웃을 사용하지 않습니다.
POPO의 안정성을 위해 모멘텀 기반 적응 법칙이 적용된 시아네스 정책 네트워크와 KL-발산 대신 제한된 유사성 패널티 항을 도입했습니다.
실험적으로 POPO가 GRPO보다 우수한 성능을 보여주었으며, 특히 Qwen-Math-7B 모델의 AIME 2025 점수에서 그 효과를 입증했습니다.

검증 가능한 보상 (RLVR) 을 사용한 강화 학습은 결정론적 검증 덕분에 대형 언어 모델 (LLM) 의 추론 능력을 향상시키는 지배적인 패러다임이 되었습니다. 커뮤니티는 Proximal Policy Optimization (PPO) 에서 Group Relative Policy Optimization (GRPO) 로 빠르게 변화하는 것을 목격했습니다. GRPO 는 그룹화된 양성과 부정적 롤아웃에 대한 간단한 추정치를 사용하여 복잡한 이득 추정을 줄입니다. 그러나 우리는 부정적 롤아웃이 실패의 심각성 등급을 허용할 수 있으며, 조합론적인 광대함은 희소 이진 보상 하에서 몇 가지 샘플링된 부정적 값을 처벌하는 것이 의미 있는 보상 신호를 덮어쓸 가능성이 낮다고 지적합니다. 본 연구에서는 온라인 양성 롤아웃만 통해 학습이 발생할 수 있는 Positive-Only Policy Optimization (POPO) 을 제안합니다. 구체적으로, POPO 는 양성 롤아웃 집합에 대한 제한된 중요 샘플링을 사용합니다. 따라서 분할 부정적 롤아웃은 기울기 안내를 위해 사용되지 않습니다. 우리는 양성 확률을 롤아웃 재분배를 통해 강화함으로써 암묵적인 부정적 기울기가 자연스럽게 나타날 수 있음을 보여줍니다. 다음으로, POPO 는 두 가지 메커니즘을 통해 정책 최적화를 안정화합니다. 첫째, 안정화된 정책 진화를 위한 모멘텀 기반 적응 법칙이 적용된 시아네스 정책 네트워크를 적용합니다. 둘째, 시아네스 표현 공간에서 KL-발산 대신 제한된 유사성 패널티 항으로 대체합니다. 우리는 공개적으로 이용 가능한 잘 확립된 텍스트 LLM 모델 (예: Qwen 가족) 을 사용하여 모든 수준의 수학적 벤치마크에 걸쳐 광범위한 실험을 수행했습니다. 우리의 실험은 POPO 가 GRPO 와 비교할 수 있거나 심지어 더 우수한 성능을 달성함을 보여줍니다. 특히, 우리는 Qwen-Math-7B 를 사용하여 AIME 2025 에서 36.67% 를 달성하며 GRPO 의 30.00% 를 초과함을 보여줍니다. 우리의 아블레이션 및 스윅 연구는 POPO 구성 요소의 필요성과 견고성을 추가로 설명합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit

요약

핵심 포인트

댓글