X요약2026. 06. 17. 20:32

NVIDIA의 ZPPO, 소형 모델이 과거에 너무 어려웠던 질문들로부터 학습할 수 있게 함

요약

NVIDIA의 ZPPO는 소형 모델이 과거의 어려운 질문을 통해 학습할 수 있도록 돕는 새로운 방법론입니다. BCQ와 NCQ를 통해 프롬프트 내에 교사를 유지함으로써 온폴리시 학습을 보존하며, 3B 규모의 VibeThinker-3B 모델은 이를 통해 프런티어 추론 수준의 성능을 달성했습니다.

핵심 포인트

ZPPO는 교사의 정답을 그래디언트 대신 프롬프트 내에 유지하여 학습
31개 벤치마크에서 GRPO를 능가하는 성능 입증
VibeThinker-3B 모델은 3B 파라미터로 AIME26 및 LeetCode에서 고성능 기록
소형 모델의 추론 능력을 비약적으로 향상시키는 방법론 제시

NVIDIA의 ZPPO는 소형 모델이 과거에 너무 어려웠던 질문들로부터 학습할 수 있게 합니다.

교사(teacher)의 정답을 그래디언트(gradients)에 주입하는 대신, BCQ와 NCQ를 통해 프롬프트(prompt) 내부에 교사를 유지합니다. 이는 온폴리시 학습 (on-policy learning)을 보존하며 31개의 벤치마크에서 GRPO를 능가하는 성능을 보여줍니다.

프로젝트 페이지:
https://byungkwanlee.github.io/ZPPO-page/
논문:
https://paperswithcode.co/paper/2606.182

VibeThinker-3B는 단 3B 파라미터만으로 프런티어 추론 (frontier reasoning) 수준에 도달합니다.

이 모델은 AIME26에서 94.3점, LeetCode에서 96.1%를 기록하며, 수백 배 더 큰 플래그십 모델들을 능가합니다.

AI 자동 생성 콘텐츠

원문 바로가기

NVIDIA의 ZPPO, 소형 모델이 과거에 너무 어려웠던 질문들로부터 학습할 수 있게 함

요약

핵심 포인트

댓글