VibeThinker-3B: SFT+GRPO로 Opus 4.5 추론 성능을 넘긴 3B 모델
요약
VibeThinker-3B 모델이 SFT와 GRPO를 통해 소형 모델임에도 Opus 4.5 수준의 추론 성능을 달성한 사례를 분석합니다. 모델의 지식 인코딩 방식과 추론 능력 사이의 상관관계, 그리고 소형 모델 최적화의 가능성과 한계에 대해 논의합니다.
핵심 포인트
- VibeThinker-3B는 SFT와 GRPO를 통해 높은 추론 성능 확보
- 지식 저장보다 추론 능력 최적화에 집중한 소형 모델의 가능성 탐색
- 추론 능력은 방대한 데이터셋을 통한 지식 학습의 부산물일 가능성
- 소형 모델의 실용적 활용을 위한 하드웨어 최적화 및 실시간 학습의 중요성
이건 추론을 잘하도록 훈련된 작은 모델이고 그게 전부라고 봐도 되는 건지 궁금함
특정 주제는 모르지만 도구만 주면 열심히 조사하는 똑똑한 사람 같음
모델이 모든 지식을 학습하게 하기보다, 학습하는 법만 훈련해서 Pi Zero 같은 작은 장치와 인터넷 연결만으로 알아서 하게 만들 수 있다면 정말 좋아 보임
예전부터 이런 걸 꿈꿔왔음
매개변수에 모든 지식을 인코딩하는 대신, 같은 크기라도 대부분을 추론에 쓰는 모델을 만들면 어떨까 싶었음
인터넷 탐색 능력만 주고, 언어 명세·문서·모범 사례를 찾아보게 하면 됨
내 코딩 에이전트가 왜 New York 인구, 치즈케이크 레시피, 타조 수명을 알아야 하는지 모르겠음
생각하고 추론하는 데 필요한 최소 지식만 주고 나머지는 스스로 알아내게 하면 됨
다만 지금의 대규모 언어 모델은 결국 토큰 예측이라 그렇게 동작하지 않는다는 게 아쉬움
반대에 가까움
추론은 모든 지식으로 훈련한 결과 나타나는 부산물이고, 이 형태에서도 모델은 뭔가를 “아는” 게 아니라 토큰을 생성할 뿐임
많은 단어와 그 사이의 그럴듯한 연결을 담은 큰 데이터셋으로 훈련하지 않으면, 단어와 문장 사이의 적절한 연결을 만들 수 없어 추론도 못 함
아주 작은 데이터셋으로 작은 모델을 훈련해 보면 횡설수설하는 출력을 볼 수 있음
최소 데이터로 최대 생성을 뽑아내도록 데이터셋을 최적화하는 건 재미있겠지만, 회사가 최신 수준 모델을 만들려면 그런 노력보다 GPU 몇 개 더 붙이는 쪽의 경제성이 훨씬 나음
모델에 불 논리, 양상 논리, 수학을 꽤 잘 다루도록 훈련할 수는 있겠지만, 그걸 “사물에 대해 생각한다”로 넘기기까지는 큰 간극이 있음
예를 들어 컵에 공을 넣고, 컵을 뒤집어 테이블 위에 놓고, 컵을 들어 상자에 넣는다는 아주 기본적인 질문도 문제에 명시되지 않은 지식, 특히 중력에 대한 지식을 필요로 함
모든 용어를 엄밀하게 정의하려 하면 금방 복잡성의 늪에 빠짐
지시를 이해하려면 사물에 대한 기본 지식이 필요하고, 추론하는 법만 안다면 무엇을 달성해야 하는지 감이 없음
모델이 훈련받는 방대한 텍스트 저장소와 어떤 주제를 견고하게 고려하는 능력 사이에는 꽤 뚜렷한 단절이 있음
훈련 순서로 경로를 유도할 수 있는지도 궁금함
예컨대 TinyStories로 기본 문해력을 익히고, 그다음 수학·철학 텍스트, 심리학·사회학 텍스트, 마지막으로 대화·분노 글·코드·소설까지 포함한 대량 데이터를 넣으면, 연기·창작 글쓰기·판타지 소설부터 훈련한 뒤 같은 최종 대량 데이터셋을 넣은 모델과 크게 달라질까 싶음
현재 능력이 새 훈련 데이터를 맥락화하는 데 얼마나 영향을 주는지도 궁금함
한동안 이 아이디어에 꽂혀 있었고, Opus 추론을 증류한 Qwen 계열도 꽤 잘 동작함
다음 전선은 더 적은 하드웨어에서 더 유능하게 만들도록 모델을 최적화하는 쪽이라고 봄
특히 실시간 학습까지 가능해지면 더 흥미로움
작지만 강한 모델의 돌파구가 나오면서, 최신 모델 제공사들의 순수한 자본 화력을 앞지르는 모습으로 보임
작은 쪽을 응원하고 싶지만 아직 단정하기엔 이른가 싶음
반대로 보면, 현재 벤치마크가 실제 개발자 작업 흐름의 성공을 포착하기에 충분히 효율적이지 않은 것일 수도 있음
사람들은 앞으로도 작은 모델의 능력에 계속 놀라게 될 것 같음
다만 이 모델에게 대화를 시키면 실패하고 일관성이 깨질 가능성이 큼
대신 수학 문제를 추론해 푸는 능력은 정말 좋음
며칠 전부터 Framework 데스크톱에서 qwen3.6:35b를 돌려 쓰기 시작했는데 꽤 인상적임
잘 돌아가고, 처음 써봤던 Claude 모델이 떠오름
시도해 본 코딩 에이전트용 로컬 모델 중 실제로 쓸 만하게 동작한 첫 모델이라 매우 신남
최적화는 이제 막 시작된 느낌이 들 때가 있음
어떤 모델이든 유용하려면 좁은 작업에서도 기본 지능 수준이 필요함
5살에게 운전을 가르칠 수 있을까? 10살은? 12살은?
운전하려면 읽을 수 있어야 하고, 빙판이나 비 오는 조건을 판단해야 하며, 공을 쫓아 뛰어나오는 아이를 예상할 수 있어야 함
인간은 10대 중반쯤 이런 기본 지식을 갖추게 됨
작은 모델도 겉보기엔 좁은 영역이라도 충분히 잘하려면 어느 정도 기본 지식이 있어야 함
프런티어 모델의 온갖 희귀 지식까지 필요하진 않겠지만, 처음 생각보다 더 높은 기준선이 있을 가능성이 큼
“운전하려면 읽을 수 있어야 한다”는 건 전혀 아님
운전면허 시험을 통과하려면 읽을 수 있어야 할 수는 있지만, 전 세계에는 문맹이어도 잘 운전하는 사람이 많음
흔한 도로 표지판을 모양과 색만으로 알아볼 수 있게 만든 데는 이유가 있음
이런 식으로 기본적인 인간 행동을 텍스트 전용 컴퓨터 게임처럼 환원하는 걸 보면 꽤 이상함
운전 자체는 주로 차를 조작하는 근육 기억에 의존하고, 그래서 운전을 많이 하는 사람은 장거리 운전 중 자동 조종처럼 움직이며 전혀 다른 생각을 하기도 함
이것도 지식의 한 형태지만 반복을 통해서만 얻어짐
물론 교통 속에서 운전하려면 교통법규의 기본 이해 등 훨씬 더 많은 게 필요하지만, 운전의 대부분은 근육 기억, 차량 이해, 앞으로 벌어질 일의 예측임
유인원이 이런 데 능한 건 수백만 년 동안 몸을 쓰고 결과를 보며 진화했기 때문임
오랑우탄이 골프 카트를 운전하는 GIF도 있었는데, 얼마나 진짜인지는 확실하지 않음
모델을 미래의 복제 인간처럼 보기보다 특정 영역에서 특정 능력을 가진 도구로 보는 편이 도움이 될 수 있음
Opus 4.8에게 차를 몰아 달라고 하는 게 말이 안 되듯, 엣지 장치용 작은 이미지 모델에게 소설을 쓰라고 기대하는 것도 말이 안 됨
특정 용도를 위해 만들어진 도구로 봐야 함
이 주제는 정식 연구로 보면 흥미로울 것 같음
진짜 장애물은 a) 판단력, b) 신체 반사와 힘 정도라고 봄
어릴 때도 빙판, 눈, 비는 알고 있었음
사계절 자전거를 탔고, 눈이나 젖은 지형에서는 특히 계절이 바뀌는 시기에 자전거를 제어할 자신이 낮았기 때문임
그 경험은 캐나다 북부의 겨울 운전 학습으로 이어졌고, 같은 교훈을 운전에 적용했음
결과가 없는 환경에서는 아이들이 실제 시뮬레이터나 비디오 게임 운전 시뮬레이션을 놀라울 정도로 정밀하게 조작하는 걸 봤음
9~11살 아이들이 성인 운전자보다 훨씬 자신 있게 시뮬레이션과 게임을 하는 경우도 있었음
아이들은 시뮬레이션에는 결과가 없다는 걸 알고 있고, 별도 동기가 주어지지 않으면 그렇게 행동함
반면 꾸준히 운전하는 성인은 게임을 할 때도 근육 기억과 선입견이 의사결정을 지배함
아이들이 운전과 운전 실수의 실제 한계와 결과를 인식하지 못하는 상태를 극복하려면 얼마나 많은 훈련과 노출이 필요한지, 반대로 숙련 운전자이지만 게임 초보인 사람이 결과 없는 시뮬레이션에 실제 경험을 적용하지 않게 되려면 얼마나 필요한지 궁금함
10살은 확실히 가능하고, 5살도 아슬아슬하지만 비현실적이진 않음
차를 운전하는 데 읽기 능력은 필요 없음
다만 다른 사람들과 함께 도로에서 운전하는 건 완전히 다른 이야기임
제대로 운전하려면 탐색-활용 균형도 맞아야 함
세 살짜리는 실수가 위험한 상황에서 너무 많이 탐색하려 할 가능성이 큼
여기에는 지식뿐 아니라 전전두엽과 함께 발달하는 제어 시스템도 필요함
대규모 언어 모델은 아직 이런 제어를 많이 하지는 못함
이 결과는 Python 전용이라는 점에 유의해야 함
다른 언어에서는 이만큼 잘하지 못할 것임
도메인 특화 소형 언어 모델이 더 많이 나오는 건 반가움
프로그래밍 특화 전문가 혼합(MoE) 모델이라면 여러 언어에 걸쳐 잘 동작할 수 있음
Java 프로그래머 흉내를 내며 클래스와 접근자로 코드를 꽉 채우지 않고, 동작하는 Python을 작성한다면 이미 Opus보다 나음
이 모델이 실제로 무엇에 초점을 맞췄는지에 대해 혼동이 많음
이 모델은 수학, 자기완결적 코딩 문제 같은 닫힌 세계의 검증 가능한 추론 작업을 위한 저렴한 전문가임
“닫힌 세계”란 필요한 정보가 이미 맥락에 들어 있다는 뜻임
빠진 맥락을 발견해 내는 도구 사용 에이전트가 아님
“검증 가능”이란 답을 생성하기는 어렵지만 확인하기는 쉬운 문제라는 뜻임
그래서 개방형 연구, 저장소 전체를 다루는 에이전트 작업, 사실 질의응답, SVG 생성에는 맞지 않음
경계가 뚜렷한 문제를 위한 작은 추론 모듈에 가까움
이렇게 작은 모델의 흥미로운 점은 Taalas 칩 하나에 올릴 수 있을 것 같다는 점임
HC1도 이미 Llama 3.1 8B 모델을 실행함
이미 그럭저럭 괜찮은 추론을 ASIC에서, 그것도 엄청난 속도로 돌릴 수 있는 지점에 와 있음
생각을 통해 출력을 개선하는 데 정말 강한 8B 모델을 Taalas에서 초당 16K 토큰으로 돌릴 수 있다면 엄청날 것임
소스 코드 보안 리뷰에서 GPT-5 nano 대체로 이 모델을 시험해 보니 어느 정도 성공하고 있음 RTX 3090 24GB VRAM에서 vLLM으로 실행 중임
모델 카드에 적힌 것처럼 구조화된 출력은 좋지 않지만, 내 테스트 하니스에서 우회하고 있음
제약 생성으로 구조화된 출력을 강제하면 안 되나?
어떻게 우회하고 있는지 궁금함
고전적인 펠리컨 SVG를 생성해 봤는데, 사각형과 검은 원만 보여주며 처참하게 실패했음
이건 예측 가능한 결과 같음
핵심은 “펠리컨에는 날개가 있다” 같은 지식은 줄이면서도 핵심 추론 능력을 보존했다는 점으로 보임
“이 발견은 매개변수 압축-포괄 가설을 뒷받침한다. 이 가설은 검증 가능한 추론은 작은 추론 코어로 압축될 수 있지만, 개방 영역 지식과 범용 역량에는 사실·개념·롱테일 시나리오 전반에 대한 넓은 매개변수 포괄이 필요하다고 본다”
아직 평가와 벤치마크를 신뢰할 수 없음
테스트 데이터셋이 정말 미공개 예제였다는 걸 어떻게 증명할 수 있을까?
이 모델들이 주장만큼 좋다는 걸 증명하는 유일한 방법은 실제로 채택되는지 기다려 보는 것이라고 봄
그걸 증명하려면 결국 블랙박스 문제의 해결, 즉 투명성 목표에 가까워져야 함
추론기 같은 것을 구현해야 한다면, 그에 맞는 최선의 아키텍처를 설계하고 구현한 뒤 테스트해야 함
이런 유능한 소형 언어 모델들이 나오는 걸 보는 게 정말 즐거움
다만 Hugging Face에는 이렇게 적혀 있음:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
그래서 pi.dev 같은 코딩 하니스에 그냥 연결해 쓸 수는 없음
Opus 4.5보다 추론을 잘한다고?
프롬프트: “A가 B에게 가고, B가 이어서 C에게 간다면, A는 C에게 뭔가를 보낼 수 있는가?”
응답은 이랬음:
“가장 적절하게 해석해야 한다. 이 문장은 무언가를 보내는 개념, 예컨대 공을 전달하는 것과 관계에 대한 퍼즐일 수 있다.
시나리오: A가 B에게 무언가를 주고, B가 그것을 C에게 넘긴다.
질문: A도 같은 것을 C에게 줄 수 있는가?
답: A가 두 번째 사본을 얻을 수 있을 때만 가능하다. 예컨대 그 물건이 복제된 경우다. 그렇지 않으면 B에게 건넨 뒤 A는 더 이상 그것을 가지고 있지 않으므로 사본이 없이는 ‘보낼’ 수 없다.”
그 밖에도 덜 말이 되는 불필요한 해설과 “시나리오”가 잔뜩 붙었음
같은 질의를 돌려 봤는데 출력은 엄청 많지만, 문장의 모호성을 추론해 풀어가고 있는 것처럼 보임
그래도 정답은 맞힘
게다가 답에 도달하는 데 쓴 부동소수점 연산량을 Opus와 비교하면 여전히 순이익이라고 봄
내 직감으로는 Opus 규모 모델은 이런 모호한 경우를 처리하는 지름길이 모델 안에 인코딩돼 있고, 이 모델은 경계 사례를 즉석에서 추론하는 프로그램을 배운 것 같음
결정성 지능 대 유동성 지능의 차이에 가까움
프런티어 모델은 확률을 기억하고, VibeThinker는 즉석에서 계산하는 느낌임
품질 관리 설명에 이런 내용이 있음:
“다단계 품질 관리.”
“대규모 언어 모델 기반 질의 품질 필터링. 우리는 성능 좋은 대규모 언어 모델을 사용해 질의 품질을 평가하고, 설명이 불완전하거나 조건이 비합리적이거나 논리가 잘못됐거나 목표 지식 포인트를 효과적으로 평가할 수 없는 샘플을 걸러낸다.”
AI 자동 생성 콘텐츠
본 콘텐츠는 RSS: GeekNews (한국어)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기