본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 17. 14:20

VibeThinker-3B, 단 3B 파라미터로 프런티어 추론 능력 달성

요약

VibeThinker-3B는 3B 파라미터 규모임에도 불구하고 AIME26과 LeetCode에서 대형 모델을 능가하는 추론 능력을 보여줍니다. Qwen2.5-Coder-3B를 기반으로 커리큘럼 SFT와 멀티 도메인 RL 등을 적용하여 구축되었습니다.

핵심 포인트

  • 3B 파라미터로 프런티어급 추론 능력 달성
  • AIME26 94.3점, LeetCode 96.1% 기록
  • 커리큘럼 SFT 및 멀티 도메인 RL 적용
  • CLR을 통한 테스트 시간 스케일링 활용

VibeThinker-3B, 단 3B 파라미터로 프런티어 추론 (frontier reasoning) 능력 달성

이 모델은 AIME26에서 94.3점을, LeetCode에서 96.1%를 기록하며, 수백 배 더 큰 플래그십 모델 (flagship models)들을 능가합니다.

모델:
https://huggingface.co/WeiboAI/VibeThinker-3B

논문:
https://paperswithcode.co/paper/2606.16140

커리큘럼 SFT (curriculum SFT), 멀티 도메인 RL (multi-domain RL), 그리고 CLR을 통한 테스트 시간 스케일링 (test-time scaling)을 적용하여 Qwen2.5-Coder-3B를 기반으로 구축되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0