로컬 LLM이 실제 질의의 71%를 답변: MiMo가 기준을 세우다

Stanford는 운영자들이 올 한 해 동안 느껴왔던 수치를 방금 제시했습니다. 로컬 모델(local models)은 이제 실제 세계의 채팅 및 추론 질의의 71.3%를 정확하게 답변하며, 이는 2023년의 23.2%에서 크게 상승한 수치입니다. 그리고 Xiaomi는 범용 GPU에서 초당 1,000 토큰(tokens per second)으로 실행되는 1조 파라미터 규모의 오픈 웨이트(open-weights) 모델을 출시하며 한계를 끌어올렸습니다.

📖 차트 및 임베디드 소스가 포함된 전체 버전을 ComputeLeap에서 읽어보세요 →

Clément Delangue tweet: Stanford research shows local models answer 71.3% of real-world queries, up from 23.2% in 2023

이 통계는 HuggingFace CEO Clément Delangue가 X를 통해 공개한 Stanford의 최신 연구에서 나왔습니다: "내러티브 위반(Narrative violation): Stanford 연구에 따르면, 로컬 모델은 실제 세계의 채팅 및 추론 질의의 71.3%를 정확하게 답변할 수 있으며, 이는 2023년의 23.2%에서 상승한 수치입니다. 분명히 비용과 에너지 측면에서는 아주 적은 부분만을 사용합니다."

같은 날, Xiaomi의 MiMo-v2.5-Pro-UltraSpeed가 507포인트와 357개의 댓글을 기록하며 Hacker News의 #2 뉴스로 올라섰습니다. 이는 당일 가장 활발했던 기술적 토론이었습니다. 코딩 벤치마크(coding benchmarks)에서 Claude Opus와 대등하며, 단일 8-GPU 범용 노드에서 실행되는 1조 파라미터 규모의 오픈 웨이트(open-weights) 모델입니다.

두 가지 데이터 포인트. 하나의 결론: 프론티어 API(frontier-API)의 가격 우산이 하단에서부터 새고 있습니다.

71.3%라는 숫자 — 그것이 의미하는 것과 의미하지 않는 것

Stanford의 발견은 벤치마크 점수가 아닙니다. 그것은 해결률(resolution rate)입니다. 사용자가 실제로 묻는 실제 세계의 질의 — 채팅, 추론, 분석 — 중에서 로컬 및 오픈 웨이트(open-weight) 모델이 이제 71.3%를 정확하게 처리합니다. 3년 전, 그 수치는 23.2%였습니다.

이러한 수치의 세 배 증가는 절대적인 수치보다 더 큰 의미를 갖습니다. 2023년에 로컬 모델을 실행한다는 것은 네 개의 질의 중 세 개는 프런티어 모델(frontier model)로의 폴백(fallback)이 필요하다는 것을 수용해야 함을 의미했습니다. 2026년에는 열 개의 질의 중 일곱 개가 API 호출 없이 해결된다는 것을 의미합니다. 매달 수백만 개의 토큰을 처리하는 팀들에게 이는 비용 계산 방식을 완전히 뒤바꿔 놓습니다.

Epoch AI의 분석은 이러한 수렴을 구조적인 관점에서 설명합니다. 프런티어 오픈 웨이트(open-weight) 모델은 이제 가장 유능한 폐쇄형(closed) 모델보다 평균적으로 단 3개월(신뢰 구간 1.1~5.3개월) 뒤처져 있습니다. Epoch 역량 지수(Epoch Capabilities Index)에서의 역량 격차는 평균 약 7포인트이며, 이는 "o3와 GPT-5 사이의 격차와 유사"합니다.

ℹ️ 로컬 모델이 여전히 해결하지 못하는 약 29%의 질의는 특정 카테고리에 집중되는 경향이 있습니다: 다단계 에이전트 워크플로(multi-step agentic workflows), 장기 추론 체인(long-horizon reasoning chains), 그리고 매우 큰 컨텍스트 윈도우(context window)를 요구하는 작업들입니다. 이것들은 바로 프런티어 연구소들이 달려가고 있는 작업 부하(workload)이며, 이것이 바로 경쟁이 중요한 이유입니다. 71%라는 하한선은 상승하고 있으며, 프런티어 모델의 방어 가능한 영역은 줄어들고 있습니다.

하지만 이 상황을 객관적으로 유지하게 만드는 반론의 프레임도 있습니다. Polymarket은 여전히 "12월 31일까지 중국 기업이 최고의 모델을 보유할 것"이라는 예측에 단 8%의 가격을 책정하고 있습니다. 실무자들은 매일 오픈/로컬 모델을 사용하며 살아가지만, 예측 시장은 이러한 동등성(parity)을 꼬리 사건(tail event)으로 취급합니다. 이 괴리가 바로 신호입니다. 시장이 수렴 현상을 잘못 가격 책정하고 있거나, 아니면 "최고의 모델"과 "대부분의 작업에 충분히 좋은 모델"이 서로 다른 것을 측정하고 있는 것입니다. 두 가지 모두 사실일 수 있습니다.

Xiaomi MiMo-v2.5-Pro: 구체적인 증거

차트 위의 숫자는 별개의 문제입니다. 이를 뒷받침하는 구체적인 모델은 또 다른 문제입니다.

MiMo-v2.5-Pro는 토큰당 420억 개의 활성 파라미터(active parameters)를 가진 1.02조 파라미터 규모의 전문가 혼합(Mixture-of-Experts, MoE) 모델입니다. 이 모델은 FP8 혼합 정밀도(mixed precision)로 실행되며, 로컬 슬라이딩 윈도우 어텐션(Local Sliding Window Attention, SWA)과 글로벌 어텐션(Global Attention)이 6:1 비율로 교차되는 하이브리드 어텐션(hybrid attention) 설계를 통해 긴 컨텍스트(long context)에서 KV 캐시(KV-cache) 저장 공간을 거의 7배 절감합니다. 네이티브 32K 컨텍스트에서 27조 개의 토큰으로 사전 학습(Pre-training)되었으며, 최대 1M까지 확장 가능합니다.

사양은 인상적입니다. 하지만 중요한 것은 벤치마크 결과입니다:

벤치마크	MiMo-V2.5-Pro	Claude Opus 4.6	GPT-5
SWE-bench Pro	57.2%	~58%	~55%
...

모델이 실제 코드베이스에서 실제 버그를 수정하는 SWE-bench Pro에서 MiMo-v2.5-Pro는 작업의 57.2%를 해결합니다. 이는 Claude Opus 4.6과 유사한 수준입니다. MIT 라이선스 하에 제공되며, 추론 비용(inference cost)은 극히 일부에 불과합니다.

그리고 속도가 있습니다.

일반 하드웨어에서 초당 1,000 토큰 생성

MiMo-v2.5-Pro-UltraSpeed 발표는 상징적인 장벽을 깨뜨렸습니다. 단일 표준 8-GPU 노드에서 1조 파라미터 모델이 초당 1,000 토큰 이상을 생성한 것입니다. 데모에서는 최대 1,200 tps에 근접하는 수치를 보여주었습니다.

세 가지의 조율된 기술이 이를 가능하게 합니다:

FP4 (MXFP4) 양자화 (quantization): MoE 전문가(Experts)에만 선택적으로 적용하여, 다른 모든 모듈의 원래 정밀도를 보존합니다.
블록 수준 마스크 병렬 예측 (Block-level masked parallel prediction): 초안 모델(draft model)이 SWA를 사용하여 예측 연산량을 일정 수준으로 줄이며, 높은 수락률(acceptance rates)을 위해 Muon 옵티마이저(optimizer)를 사용합니다.
TileRT: 극단적인 연산 활용도(compute utilization)를 달성하는 지속성 커널(persistent kernels), 타일 파이프라인(tile pipelines), 그리고 이기종 협업(heterogeneous collaboration) 기술입니다.

Decrypt의 헤드라인은 분위기를 정확히 포착했습니다: "중국의 Xiaomi MiMo가 이제 ChatGPT와 Claude보다 15배 더 빠릅니다." 이 비교는 불완전합니다. API 지연 시간(latency)에는 로컬 추론(local inference)에서는 발생하지 않는 네트워크 오버헤드(network overhead)가 포함되어 있기 때문입니다. 하지만 방향성 측면에서의 핵심은 유효합니다. 사상 처음으로, 완전한 오픈 웨이트(open-weights) 모델이 단순히 최첨단(frontier) 성능에 필적하는 것을 넘어, 최첨단 수준의 속도로 최첨단 성능을 구현해냈습니다.

Hacker News 토론은 흥분 이면에 깔린 불안감을 구체화했습니다. AI가 빨라진다는 것은 근무 시간이 단축됨을 의미하는 것이 아니라, 더 높은 산출물 기대치를 의미한다는 것입니다. 한 댓글 작성자가 표현했듯이, 문제는 모델이 충분히 빠른가가 아닙니다. 컴파일(compilation), 테스트(testing), 또는 인간의 검토(human review) 단계에서 병목 현상(bottlenecking)이 발생하지 않고 초당 1,000개의 토큰(tokens)을 워크플로(workflow)가 흡수할 수 있느냐가 문제입니다.

💡 MiMo-v2.5-Pro-UltraSpeed는 MIT 라이선스 하에 HuggingFace에서 이용 가능합니다. Xiaomi는 FP4 양자화된 체크포인트(MiMo-V2.5-Pro-FP4-DFlash)도 오픈 소스로 공개했습니다. API를 사용해보고 싶다면, 2026년 6월 9일부터 23일까지 표준 MiMo 가격의 약 3배로 10배 빠른 출력 속도를 제공하는 체험판이 운영됩니다.

도입의 변화는 이미 진행 중입니다

Stanford의 통계와 MiMo의 벤치마크(benchmarks)는 이러한 변화가 왜 일어나고 있는지를 설명합니다. 도입 데이터는 그 변화가 어디까지 진행되었는지를 보여줍니다.

nxthompson tweet: striking shift toward Chinese models by American AI startups

fast.ai의 Jeremy Howard가 리트윗한(좋아요 1,900개, 조회수 459,000회) X의 바이럴 스레드는 "올해 초부터 미국 AI 스타트업들이 중국 모델로 상당히 놀라운 전환을 보이고 있다"고 언급했습니다. 데이터가 이를 뒷받침합니다. Gradient Flow 보고서에 따르면 현재 미국 AI 스타트업의 80%가 중국 오픈 소스 모델을 사용하고 있으며, OpenRouter 데이터는 2026년 5월까지 중국 모델이 주간 토큰 소비량에서 미국 모델을 추월했음을 보여줍니다.

한편, 미국의 오픈 소스 (open-source) 진영도 자체적인 재도약을 준비하고 있습니다.

0xSero tweet: American Open Source is back — 9 of 30 HuggingFace page 1 models from NVIDIA

NVIDIA는 현재 HuggingFace 첫 페이지의 상위 30개 모델 중 9개를 발표하고 있으며, OLMo의 처음부터 학습하는 (from-scratch) 시리즈가 마무리됨에 따라 Nemotron이 유일하게 남은 완전 개방형 처음부터 학습한 LLM 팀으로 부상했습니다. Google의 Gemma 4는 다중 토큰 예측 (multi-token prediction) 지원과 함께 llama.cpp에 통합되었습니다. 또한 HuggingFace, Meta-PyTorch, Unsloth, Modal

그 격차는 두 가지 측면에서 가장 완고하게 지속되고 있습니다: 프론티어 규모의 에이전트 워크플로우 (Agentic workflows, 10개 이상의 도구 호출을 포함하는 다단계 체인)와 매우 긴 컨텍스트 분석 (높은 정확도를 요구하는 200K 토큰 이상의 컨텍스트)입니다. 이것들은 프론티어 연구소(Frontier labs)들이 집중하고 있는 워크로드입니다. 격차가 벌어지고 있기 때문이 아니라, 이곳이 남은 유일한 방어 가능한 영역이기 때문입니다.

한 Substack 분석가가 언급했듯이: "필요하지 않은 지능에 과도한 비용을 지불하는 것을 멈추십시오." 대부분의 프로덕션 추론 (Production inference)에 있어, 3개월의 시차는 무의미합니다. 여러분의 코드 완성 (Code completion) 기능에 지난주의 SOTA (State-of-the-art, 최첨단 기술)가 반드시 필요한 것은 아닙니다.

거시적 맥락: 이것이 지금 중요한 이유

이러한 수렴은 진공 상태에서 발생한 것이 아닙니다. 프론티어 API 비즈니스 모델이 가장 심한 조사를 받고 있는 바로 이 시점에 도래했습니다.

우리는 지난 3월에 저렴한 AI 모델의 숨겨진 비용에 대해 다루었습니다. 11,872개의 질의를 대상으로 한 스탠퍼드(Stanford)의 자체 연구에 따르면, 정답당 비용으로 측정했을 때 토큰당 가격 책정은 허구임이 드러났습니다. 그 발견은 이제 양방향으로 작용합니다. 만약 로컬 모델이 질의의 71.3%를 정확하게 해결하고, 나머지 28.7%가 진정으로 프론티어 역량을 필요로 한다면, 효율적인 전략은 어느 한쪽에도 올인하지 않는 하이브리드(Hybrid) 방식입니다.

이번 주에 회자되고 있는 와튼(Wharton)의 논문은 프론티어 연구소들이 빠르게 2.7배의 생산성 배수를 확보하지 못하면 자본 지출 (Capex) 계산이 무너질 것이라고 주장합니다. 빌 걸리(Bill Gurley)는 독립적으로 "최근 소비자용 모델들이 노력을 덜 기울이고 있다... 이는 비용 최적화의 결과이다"라고 언급했습니다. 1,000억 달러 이상의 자산가로부터 나온 독립적인 확인에 따르면, 프론티어 벤더들은 이미 마진을 보호하기 위해 질의당 컴퓨팅 자원을 조용히 줄이고 있습니다.

만약 로컬/오픈 웨이트 (Open weights) 모델이 아주 적은 비용으로 실제 질의의 약 70%를 해결한다면, 프론티어 API의 가격 보호막은 밑바닥부터 새어나가게 됩니다. 그리고 그것이 바로 "2.7배가 아니면 파산"이라는 계산식이 유지된다고 가정하는 바로 그 수익선입니다.