이전의 VibeThinker-1.5B를 3B로 확장 — 이제 프론티어급 수학 및 코딩 성능에 도달했습니다
요약
VibeThinker-1.5B를 3B 규모로 확장하여 수학 및 코딩 분야에서 프론티어급 성능을 달리는 모델을 공개했습니다. 소형 모델(SLM)이 검증 가능한 추론 영역에서 스케일링 법칙을 보완할 수 있음을 입증했습니다.
핵심 포인트
- VibeThinker-3B 모델의 수학 및 코딩 성능 대폭 향상
- AIME, LiveCodeBench 등 주요 벤치마크에서 높은 점수 기록
- LeetCode 대회에서 96.1%의 높은 Python 통과율 달성
- 소형 모델이 특정 추론 영역에서 프론티어급 성능을 낼 수 있음을 증명
우리는 엄격한 소형 모델 체제(small-model regime)에서 검증 가능한 추론(verifiable reasoning)을 어디까지 밀어붙일 수 있는지 테스트하기 위해 VibeThinker-3B를 훈련했습니다.
이 모델은 AIME'26에서 94.3, LiveCodeBench v6에서 80.2, IMO-AnswerBench에서 76.4, 그리고 IFEval에서 93.4를 기록했습니다.
최근 공개되지 않은 LeetCode 주간/격주 대회에서, 이 모델은 128개 중 123개의 Python 제출을 첫 시도에 통과하며, 전체 96.1%의 성공률을 보였습니다.
소형 모델(Small models)은 단순히 비용이 저렴한 대체재가 아닙니다. 명확한 검증 신호(verification signals)가 있는 파라미터 밀집 영역(parameter-dense domains)에서, 소형 언어 모델(SLMs)은 전통적인 스케일링 법칙(Scaling Law)을 보완하는 프론티어 수준의 추론 경로를 제공합니다. 비록 더 넓은 실용적 및 범용적 사용 사례에서는 여전히 한계가 있지만, 향후 버전에서 이러한 영역들을 계속 개선해 나갈 것입니다.
커뮤니티 여러분이 직접 수학/코딩/OOD(Out-of-Distribution) 작업에서 테스트해 보시고, 실패 사례나 피드백을 공유해 주시면 감사하겠습니다.
논문: paper link
보고서의 평가 설정(Eval setting): vLLM/Sglang, temp=1.0, top_p=0.95, top_k=-1.
submitted by /u/Used-Negotiation-741
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기