
VibeThinker-3B, 단 3B 파라미터로 프런티어 추론 능력 달성
요약
VibeThinker-3B는 3B 파라미터 규모임에도 불구하고 AIME26과 LeetCode에서 대형 모델을 능가하는 추론 능력을 보여줍니다. Qwen2.5-Coder-3B를 기반으로 커리큘럼 SFT와 멀티 도메인 RL 등을 적용하여 구축되었습니다.
핵심 포인트
- 3B 파라미터로 프런티어급 추론 능력 달성
- AIME26 94.3점, LeetCode 96.1% 기록
- 커리큘럼 SFT 및 멀티 도메인 RL 적용
- CLR을 통한 테스트 시간 스케일링 활용
VibeThinker-3B, 단 3B 파라미터로 프런티어 추론 (frontier reasoning) 능력 달성
이 모델은 AIME26에서 94.3점을, LeetCode에서 96.1%를 기록하며, 수백 배 더 큰 플래그십 모델 (flagship models)들을 능가합니다.
모델:
https://huggingface.co/WeiboAI/VibeThinker-3B
논문:
https://paperswithcode.co/paper/2606.16140
커리큘럼 SFT (curriculum SFT), 멀티 도메인 RL (multi-domain RL), 그리고 CLR을 통한 테스트 시간 스케일링 (test-time scaling)을 적용하여 Qwen2.5-Coder-3B를 기반으로 구축되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기