X요약2026. 06. 17. 14:20

VibeThinker-3B, 단 3B 파라미터로 프런티어 추론 능력 달성

요약

VibeThinker-3B는 3B 파라미터 규모임에도 불구하고 AIME26과 LeetCode에서 대형 모델을 능가하는 추론 능력을 보여줍니다. Qwen2.5-Coder-3B를 기반으로 커리큘럼 SFT와 멀티 도메인 RL 등을 적용하여 구축되었습니다.

VibeThinker-3B, 단 3B 파라미터로 프런티어 추론 (frontier reasoning) 능력 달성

이 모델은 AIME26에서 94.3점을, LeetCode에서 96.1%를 기록하며, 수백 배 더 큰 플래그십 모델 (flagship models)들을 능가합니다.

커리큘럼 SFT (curriculum SFT), 멀티 도메인 RL (multi-domain RL), 그리고 CLR을 통한 테스트 시간 스케일링 (test-time scaling)을 적용하여 Qwen2.5-Coder-3B를 기반으로 구축되었습니다.

AI 자동 생성 콘텐츠