이전의 VibeThinker-1.5B를 3B로 확장 — 이제 프론티어급 수학 및 코딩 성능에 도달했습니다 - Insights | Molayo

우리는 엄격한 소형 모델 체제(small-model regime)에서 검증 가능한 추론(verifiable reasoning)을 어디까지 밀어붙일 수 있는지 테스트하기 위해 VibeThinker-3B를 훈련했습니다.

이 모델은 AIME'26에서 94.3, LiveCodeBench v6에서 80.2, IMO-AnswerBench에서 76.4, 그리고 IFEval에서 93.4를 기록했습니다.
최근 공개되지 않은 LeetCode 주간/격주 대회에서, 이 모델은 128개 중 123개의 Python 제출을 첫 시도에 통과하며, 전체 96.1%의 성공률을 보였습니다.

소형 모델(Small models)은 단순히 비용이 저렴한 대체재가 아닙니다. 명확한 검증 신호(verification signals)가 있는 파라미터 밀집 영역(parameter-dense domains)에서, 소형 언어 모델(SLMs)은 전통적인 스케일링 법칙(Scaling Law)을 보완하는 프론티어 수준의 추론 경로를 제공합니다. 비록 더 넓은 실용적 및 범용적 사용 사례에서는 여전히 한계가 있지만, 향후 버전에서 이러한 영역들을 계속 개선해 나갈 것입니다.

커뮤니티 여러분이 직접 수학/코딩/OOD(Out-of-Distribution) 작업에서 테스트해 보시고, 실패 사례나 피드백을 공유해 주시면 감사하겠습니다.
논문: paper link
보고서의 평가 설정(Eval setting): vLLM/Sglang, temp=1.0, top_p=0.95, top_k=-1.
submitted by /u/Used-Negotiation-741
[link] [comments]

Insights

이전의 VibeThinker-1.5B를 3B로 확장 — 이제 프론티어급 수학 및 코딩 성능에 도달했습니다

요약

핵심 포인트

댓글

이란 합의 기대감에 유가 급락, 공동 개입 후 엔화 강세

에이전트의 IP가 변경되어도 연결 상태를 유지하는 방법: 주소가 IP보다 오래 지속되기 위해 필요한 조건

Shein, IPO 앞두고 후기 단계 투자자들을 위한 현금 지급 및 추가 주식 제공 검토

C.H. Robinson: 핵 판결(Nuclear Verdict)이 브로커에게 미치는 실존적 위협

이란 합의 기대감에 유가 급락, 공동 개입 후 엔화 강세

에이전트의 IP가 변경되어도 연결 상태를 유지하는 방법: 주소가 IP보다 오래 지속되기 위해 필요한 조건

Shein, IPO 앞두고 후기 단계 투자자들을 위한 현금 지급 및 추가 주식 제공 검토

C.H. Robinson: 핵 판결(Nuclear Verdict)이 브로커에게 미치는 실존적 위협