
NVIDIA의 ZPPO, 소형 모델이 과거에 너무 어려웠던 질문들로부터 학습할 수 있게 함
요약
NVIDIA의 ZPPO는 소형 모델이 과거의 어려운 질문을 통해 학습할 수 있도록 돕는 새로운 방법론입니다. BCQ와 NCQ를 통해 프롬프트 내에 교사를 유지함으로써 온폴리시 학습을 보존하며, 3B 규모의 VibeThinker-3B 모델은 이를 통해 프런티어 추론 수준의 성능을 달성했습니다.
핵심 포인트
- ZPPO는 교사의 정답을 그래디언트 대신 프롬프트 내에 유지하여 학습
- 31개 벤치마크에서 GRPO를 능가하는 성능 입증
- VibeThinker-3B 모델은 3B 파라미터로 AIME26 및 LeetCode에서 고성능 기록
- 소형 모델의 추론 능력을 비약적으로 향상시키는 방법론 제시
NVIDIA의 ZPPO는 소형 모델이 과거에 너무 어려웠던 질문들로부터 학습할 수 있게 합니다.
교사(teacher)의 정답을 그래디언트(gradients)에 주입하는 대신, BCQ와 NCQ를 통해 프롬프트(prompt) 내부에 교사를 유지합니다. 이는 온폴리시 학습 (on-policy learning)을 보존하며 31개의 벤치마크에서 GRPO를 능가하는 성능을 보여줍니다.
프로젝트 페이지:
https://byungkwanlee.github.io/ZPPO-page/
논문:
https://paperswithcode.co/paper/2606.182
VibeThinker-3B는 단 3B 파라미터만으로 프런티어 추론 (frontier reasoning) 수준에 도달합니다.
이 모델은 AIME26에서 94.3점, LeetCode에서 96.1%를 기록하며, 수백 배 더 큰 플래그십 모델들을 능가합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기