Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit
요약
본 논문은 기존 강화 학습(RL) 기반 LLM 미세 조정 방법론인 GRPO의 한계를 지적하며, 오직 긍정적인 롤아웃 데이터만을 사용하여 정책을 최적화하는 Positive-Only Policy Optimization (POPO) 기법을 제안합니다. POPO는 제한된 중요 샘플링과 모멘텀 기반 적응 법칙 및 유사성 패널티 항을 결합하여 학습 안정성을 높입니다. 실험 결과, Qwen-Math-7B 모델을 사용하여 수학적 벤치마크(AIME 2025)에서 GRPO보다 우수한 성능을 달성하며 POPO의 효과를 입증했습니다.
핵심 포인트
- 기존 RL 기반 LLM 미세 조정 방법론인 GRPO는 부정적 롤아웃에 의존하는데, 이는 희소 이진 보상 환경에서 의미 있는 신호를 손상시킬 위험이 있습니다.
- 제안된 POPO(Positive-Only Policy Optimization)는 오직 양성 롤아웃 데이터만을 사용하여 정책을 최적화하며, 분할 부정적 롤아웃을 사용하지 않습니다.
- POPO의 안정성을 위해 모멘텀 기반 적응 법칙이 적용된 시아네스 정책 네트워크와 KL-발산 대신 제한된 유사성 패널티 항을 도입했습니다.
- 실험적으로 POPO가 GRPO보다 우수한 성능을 보여주었으며, 특히 Qwen-Math-7B 모델의 AIME 2025 점수에서 그 효과를 입증했습니다.
검증 가능한 보상 (RLVR) 을 사용한 강화 학습은 결정론적 검증 덕분에 대형 언어 모델 (LLM) 의 추론 능력을 향상시키는 지배적인 패러다임이 되었습니다. 커뮤니티는 Proximal Policy Optimization (PPO) 에서 Group Relative Policy Optimization (GRPO) 로 빠르게 변화하는 것을 목격했습니다. GRPO 는 그룹화된 양성과 부정적 롤아웃에 대한 간단한 추정치를 사용하여 복잡한 이득 추정을 줄입니다. 그러나 우리는 부정적 롤아웃이 실패의 심각성 등급을 허용할 수 있으며, 조합론적인 광대함은 희소 이진 보상 하에서 몇 가지 샘플링된 부정적 값을 처벌하는 것이 의미 있는 보상 신호를 덮어쓸 가능성이 낮다고 지적합니다. 본 연구에서는 온라인 양성 롤아웃만 통해 학습이 발생할 수 있는 Positive-Only Policy Optimization (POPO) 을 제안합니다. 구체적으로, POPO 는 양성 롤아웃 집합에 대한 제한된 중요 샘플링을 사용합니다. 따라서 분할 부정적 롤아웃은 기울기 안내를 위해 사용되지 않습니다. 우리는 양성 확률을 롤아웃 재분배를 통해 강화함으로써 암묵적인 부정적 기울기가 자연스럽게 나타날 수 있음을 보여줍니다. 다음으로, POPO 는 두 가지 메커니즘을 통해 정책 최적화를 안정화합니다. 첫째, 안정화된 정책 진화를 위한 모멘텀 기반 적응 법칙이 적용된 시아네스 정책 네트워크를 적용합니다. 둘째, 시아네스 표현 공간에서 KL-발산 대신 제한된 유사성 패널티 항으로 대체합니다. 우리는 공개적으로 이용 가능한 잘 확립된 텍스트 LLM 모델 (예: Qwen 가족) 을 사용하여 모든 수준의 수학적 벤치마크에 걸쳐 광범위한 실험을 수행했습니다. 우리의 실험은 POPO 가 GRPO 와 비교할 수 있거나 심지어 더 우수한 성능을 달성함을 보여줍니다. 특히, 우리는 Qwen-Math-7B 를 사용하여 AIME 2025 에서 36.67% 를 달성하며 GRPO 의 30.00% 를 초과함을 보여줍니다. 우리의 아블레이션 및 스윅 연구는 POPO 구성 요소의 필요성과 견고성을 추가로 설명합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기