
VibeThinker-3B: 소형 언어 모델(Small Language Models)에서 검증 가능한 추론(Verifiable
요약
3B 파라미터 규모의 소형 언어 모델인 VibeThinker-3B를 소개하며, 검증 가능한 추론 성능을 극대화하는 최적화 파이프라인을 제안합니다. 실험 결과, 이 모델은 대규모 플래그십 모델들과 대등한 수준의 추론 및 코딩 성능을 보여주었습니다.
핵심 포인트
- Spectrum-to-Signal 사후 학습 패러다임 적용
- AIME26 및 LiveCodeBench에서 최첨단 성능 달성
- 파라미터 압축-커버리지 가설(Parametric Compression-Coverage Hypothesis) 입증
- 소형 모델이 고성능 추론 코어로 압축될 수 있음을 시사
컴퓨터 과학 (Computer Science) > 인공지능 (Artificial Intelligence)
제목: VibeThinker-3B: 소형 언어 모델 (Small Language Models)에서 검증 가능한 추론 (Verifiable Reasoning)의 경계 탐색
PDF 보기 HTML (실험적)
초록: 본 기술 보고서는 엄격한 소형 모델 체제 내에서 검증 가능한 추론 (Verifiable Reasoning)을 어디까지 밀어붙일 수 있는지 조사하기 위해 개발된 3B 파라미터 규모의 컴팩트한 밀집 모델 (Dense Model)인 VibeThinker-3B를 소개합니다. Spectrum-to-Signal 사후 학습 (Post-training) 패러다임을 기반으로, 우리는 커리큘럼 기반 지도 미세 조정 (Curriculum-based Supervised Fine-tuning), 다중 도메인 강화 학습 (Multi-domain Reinforcement Learning), 그리고 오프라인 자기 증류 (Offline Self-distillation)를 포함하는 최적화된 파이프라인을 통해 모델을 체계적으로 향상시켰습니다. 실험적 평가 결과, VibeThinker-3B는 매우 까다로운 검증 가능한 작업들에서 최첨단 (Frontier-level) 성능을 달성함을 입증했습니다. 구체적으로, AIME26에서 94.3점을 기록하였으며 (주장 수준의 테스트 시간 스케일링 (Claim-level Test-time Scaling) 적용 시 97.1점으로 향상), LiveCodeBench v6에서 80.2의 Pass@1을 달성하였고, 최근에 공개된 미학습 LeetCode 대회에서 96.1%의 수락률 (Acceptance rate)을 보이며 강력한 분포 외 일반화 (Out-of-distribution Generalization) 능력을 보여주었습니다. 이는 VibeThinker-3B를 사실상 1티어 추론 시스템의 성능 대역에 위치시키며, DeepSeek V3.2, GLM-5, Gemini 3 Pro와 같이 규모가 수십 배 더 큰 플래그십 모델들과 대등하거나 이를 능가하는 수준입니다. 또한, IFEval에서 93.4점을 기록하여 이러한 극한의 추론 향상이 엄격한 지시 제어 가능성 (Instruction Controllability)을 저해하지 않음을 확인했습니다. 이전의 1.5B 연구를 확장하며, 이러한 발견은 파라미터 압축-커버리지 가설 (Parametric Compression-Coverage Hypothesis)을 뒷받침합니다. 이 가설은 검증 가능한 추론이 컴팩트한 추론 코어로 압축될 수 있는 반면, 오픈 도메인 지식과 범용 역량은 사실, 개념 및 롱테일 (Long-tail) 시나리오에 대한 광범위한 파라미터 커버리지를 필요로 한다는 관점입니다. 이러한 관점은 컴팩트한 모델이 단순히 배포 효율적인 대체재가 아니라, 파라미터 밀집 역량 체제에서 최첨단 성능으로 나아가는 상호 보완적인 경로임을 시사합니다.
서지 및 인용 도구
이 논문과 관련된 코드, 데이터 및 미디어
데모
추천 및 검색 도구
arXivLabs: 커뮤니티 협력자와 함께하는 실험적 프로젝트
arXivLabs는 협력자들이 저희 웹사이트에서 직접 새로운 arXiv 기능을 개발하고 공유할 수 있도록 지원하는 프레임워크입니다.
arXivLabs와 함께 활동하는 개인 및 조직은 개방성, 커뮤니티, 탁월함, 그리고 사용자 데이터 프라이버시라는 저희의 가치를 수용하고 받아들였습니다. arXiv는 이러한 가치에 전념하고 있으며, 이를 준수하는 파트너와만 협력합니다.
arXiv 커뮤니티에 가치를 더할 프로젝트 아이디어가 있으신가요? arXivLabs에 대해 더 알아보기.
AI 자동 생성 콘텐츠
본 콘텐츠는 Lobste.rs AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기