Meta Description: Xiaomi의 MiMo-V2.5-Pro-UltraSpeed는 범용 GPU를 사용하여 1T-파라미터 (1T-parameter) 모델에서 초당 1,000 토큰의 장벽을 막 깨뜨렸습니다. 이 심층 분석에서는 이를 가능하게 한 FP4 양자화 (quantization), DFlash 투기적 디코딩 (speculative decoding), 그리고 TileRT 지속성 엔진 (persistent engine) 기술을 실행 가능한 SGLang 코드와 함께 파헤칩니다.

Xiaomi가 어떻게 1조 개의 파라미터를 가진 모델에서 초당 1,000 토큰을 달성했는가: LLM 추론 최적화 심층 분석

Hero: 1000 TPS on a 1T model — data streams blazing through a GPU array

문제 제기: 왜 1조 파라미터 추론은 차원이 다른 문제인가
기술 1 — 전문가 전용 FP4 (MXFP4) 양자화 (Quantization)
기술 2 — DFlash: 블록 확산 투기적 디코딩 (Block-Diffusion Speculative Decoding)
기술 3 — TileRT: 지속성 엔진 커널 (Persistent Engine Kernels) 및 워프 전문화 (Warp Specialization)
풀 스택 (Full Stack): 왜 하드웨어-소프트웨어 공동 설계 (Hardware-Software Co-Design)가 필수적이었는가
직접 배포하기: SGLang 설정 및 코드 예제
벤치마크 및 성능 수치
1,000 TPS가 에이전틱 AI (Agentic AI) 시스템 설계에 의미하는 바
결론 및 향후 과제

서론

2026년 6월 8일, Xiaomi의 MiMo 팀은 Hacker News 메인 페이지를 멈추게 만든 결과를 발표했습니다: 단일 8-GPU 범용 노드에서 실행되는 1조 파라미터 (1-trillion-parameter) 모델에서 초당 1,000개 이상의 토큰 디코딩 처리량 (decode throughput)을 달성한 것입니다.

이것이 왜 놀라운 일인지 이해하려면 기준점을 고려해야 합니다. 최첨단 추론, 코딩 에이전트 (coding agents), 다단계 도구 사용 (multi-step tool use)을 구동하는 1T-파라미터 모델들은 역사적으로 표준 GPU 클러스터에서 기껏해야 초당 30~80 토큰의 속도로 디코딩되었으며, 긴 문맥 (long-context) 요청을 처리할 때는 이보다 훨씬 낮았습니다. 1,000 TPS 임계값을 돌파하는 것은 단순히 10배의 개선이 아닙니다. TileRT의 엔지니어링 팀이 표현했듯이, 이는 완전히 다른 차원의 하드웨어 현실 아래에서 이루어진 작업입니다.

이 포스트는 그들이 이를 어떻게 달성했는지에 대한 완전한 기술적 사후 분석(technical autopsy)입니다. 우리는 서로 맞물려 있는 세 가지 기술인 Expert-Only FP4 양자화 (Quantization), DFlash Block-Diffusion 추측적 디코딩 (Speculative Decoding), 그리고 **TileRT의 지속성 엔진 커널 (Persistent Engine Kernel)**을 다룰 것이며, 왜 이 기술들이 단독으로는 작동할 수 없었는지에 대해서도 살펴볼 것입니다. 마지막으로 실행 가능한 SGLang 배포 코드와 이것이 오늘날 에이전트 시스템 (agentic systems)을 구축하는 엔지니어들에게 무엇을 의미하는지에 대한 논의로 마무리하겠습니다.

LLM 추론 (inference) 최적화가 방금 새로운 경지에 도달했습니다. 이제 이를 철저히 파헤쳐 보겠습니다.

1. 문제점: 왜 1조 파라미터 추론은 차원이 다른 괴물인가 {#the-problem}

해결책을 살펴보기 전에, 1T(1조) 파라미터 모델이 70B(700억) 모델보다 단순히 양적으로뿐만 아니라 구조적으로 왜 근본적으로 서빙하기 어려운지에 대해 정확히 짚고 넘어갈 가치가 있습니다.

메모리 대역폭의 벽 (The memory bandwidth wall). LLM 디코딩 (decoding)은 연산 제한 (compute-bound)이 아니라 메모리 대역폭 제한 (memory-bandwidth-bound)을 받습니다. 자기회귀 생성 (autoregressive generation) 과정 중 각 순전파 (forward pass) 단계에서는 토큰당 활성화된 모든 모델 가중치를 HBM에서 한 번씩 읽어 들여야 합니다. FP8 (값당 1바이트) 기준으로, 1T 파라미터 모델은 생성되는 토큰당 약 1 TB의 가중치를 로드해야 합니다. H100 GPU는 약 3.35 TB/s의 HBM3 대역폭을 가집니다. 단일 GPU에서는 KV 캐시 (KV cache), 어텐션 (attention), 라우팅 (routing) 오버헤드를 고려하기도 전에 초당 약 3토큰 수준에서 제한됩니다. 텐서 병렬성 (tensor parallelism)을 사용하여 8개의 GPU로 확장하면 도움이 되지만, GPU 간 통신 (AllReduce/AllGather)은 규모가 커질수록 가중되는 지연 시간 (latency)을 추가합니다.

혼합 전문가 (Mixture-of-Experts, MoE) 라우팅 문제. MiMo-V2.5-Pro를 포함한 최첨단 1T 파라미터 모델들은 희소 MoE (sparse MoE) 아키텍처입니다. 즉, 각 토큰은 전문가 FFN 레이어의 일부 서브셋만 활성화합니다 (MiMo는 총 1.02T 중 토큰당 약 42B 파라미터를 활성화합니다). 이는 토큰당 FLOPs를 극적으로 줄여주지만, _전문가 라우팅 불균형 (expert routing imbalance)_을 초래합니다. 즉, 일부 전문가는 과부하가 걸리는 반면 다른 전문가들은 유휴 상태로 남게 되며, 라우팅 결정은 GPU 메모리 계층 구조의 데이터 지역성 (data locality)을 파편화합니다.

대규모 환경에서의 실행 격차 (execution gap) 문제. 전통적인 추론 프레임워크 (inference frameworks)는 모델을 개별 연산자 (operators) (GEMM, RMSNorm, RoPE, Softmax, KV cache write 등)로 분해하고 이를 순차적으로 실행합니다. 각 연산자의 경계에서는 호스트 측 실행 오버헤드 (host-side launch overhead), 하드웨어 동기화 장벽 (hardware sync barriers), 그리고 글로벌 메모리 왕복 (global memory round-trips)이 발생합니다. 초당 30~80 토큰 (TPS) 수준에서는 이러한 오버헤드가 상쇄됩니다. 하지만 각 토큰의 수명이 마이크로초 (microseconds) 단위로 측정되는 초당 1,000 토큰 (TPS) 환경에서는, 동일한 오버헤드가 지배적인 병목 현상 (bottleneck)이 됩니다. 매우 저렴한 연산인 RMSNorm만 하더라도, 이 정도의 클록 속도에서는 수십 마이크로초의 파편화 (fragmentation)를 유발할 수 있습니다.

1,000 TPS를 돌파하기 위해서는 세 가지 차원을 동시에 공략해야 했습니다. MiMo + TileRT 팀의 해답은 세 갈래의 공동 설계 (co-design)였습니다:

로드하는 양을 줄여라 → FP4 양자화 (quantization)
순전파 (forward pass)당 더 많이 검증하라 → DFlash 투기적 디코딩 (speculative decoding)
실행 격차를 제거하라 → TileRT 지속성 커널 (persistent kernels)

각 항목에 대해 심층적으로 살펴보겠습니다.

2. 기술 1 — 전문가 전용 FP4 (MXFP4) 양자화 {#fp4-quantization}

FP4 quantization: MoE Expert layers in FP4, Attention at higher precision

수치로 보는 대역폭 병목 현상 (Bandwidth Bottleneck)

메모리 대역폭 (memory-bandwidth) 제한에 맞서는 표준적인 무기는 양자화 (quantization)입니다. 즉, 가중치 (weight)당 비트 수를 줄여 토큰당 로드해야 하는 메모리 양을 줄이는 것입니다. 그 발전 과정은 FP16 → INT8/FP8 → 그리고 현재의 FP4로 이어져 왔습니다. FP4 (값당 4비트)를 사용하면 FP8 대비 메모리 점유율 (memory footprint)을 절반으로 줄일 수 있고, FP16 대비 4분의 1로 줄일 수 있습니다. 이는 HBM(고대역폭 메모리)에서 가중치를 두 배 더 빠르게 로드할 수 있음을 의미합니다.

단순한 (naïve) FP4 양자화 (quantization)의 문제는 **표현 붕괴 (representational collapse)**입니다. FP4는 오직 16개의 서로 다른 값만을 표현할 수 있습니다. 안정적인 어텐션 점수 (attention score) 계산과 출력 분포 (output distribution)를 위해 정밀한 수치적 정확도가 필요한 어텐션 투영 (attention projections), 레이어 정규화 (layer norms), 임베딩 레이어 (embedding layers) 전체에 이를 일률적으로 적용하면 추론, 수학, 코드 생성 품질이 즉각적으로 저하되는 것을 보게 될 것입니다.

MoE의 통찰: 전문가(Experts)는 더 관대하다

MiMo 팀이 활용한 핵심 통찰은 MoE (Mixture-of-Experts) 모델에서 모든 레이어가 양자화 노이즈 (quantization noise)에 대해 동일한 민감도를 갖지는 않는다는 점입니다. **MoE 전문가 FFN 레이어 (MoE Expert FFN layers)**는 파라미터의 대다수(1T 규모에서 약 95%)를 차지하며, 경험적으로 비트 너비 (bit-width) 감소에 더 관대합니다. 이는 직관적으로 타당합니다. 각 전문가는 특정 도메인에 특화된 상대적으로 좁은 FFN이며, 가중치의 작은 섭동 (perturbations)은 라우터 (router)의 선택 로직과 잔차 연결 (residual stream)에 의해 완화되기 때문입니다.

이와 대조적으로, 어텐션 투영 (attention projections) (Q, K, V 및 출력 투영)은 전역적으로 민감합니다. 모든 토큰이 이를 통과하며, 내적 어텐션 (dot-product attention) 메커니즘은 키 (key)와 쿼리 (query) 투영에서의 모든 수치적 노이즈를 어텐션 점수 오류로 증폭시킵니다.

QAT를 적용한 MXFP4

사용된 특정 형식은 블록 크기가 32인 **MXFP4 (Microscaling FP4)**입니다. 이는 32개의 값을 공통 스케일 인자 (scale factor) 아래로 그룹화하여 각 그룹에 공유 지수 (shared exponent)를 부여하고 요소별로 3비트 가수 (mantissas)를 갖게 하는 MX (Microscaling) 사양의 공유 지수 형식을 따릅니다. 이는 전문가 가중치 분포의 동적 범위 (dynamic range)를 보존하는 데 있어 단순한 INT4보다 훨씬 뛰어납니다.

결정적으로, 팀은 **양자화 인식 훈련 (Quantization-Aware Training, QAT)**을 사용했습니다. 이는 순전파 (forward pass) 과정에서 FP4 양자화를 시뮬레이션하고(역전파 (backward pass)에서는 straight-through estimators를 통해) 모델을 미세 조정 (fine-tuning)하는 방식입니다. QAT를 통해 모델은 FP4 표현에 본질적으로 친화적인 가중치 분포를 학습할 수 있으며, 이를 통해 사후 양자화 (post-training quantization)와의 정확도 격차를 줄일 수 있습니다.

모든 레이어의 o_proj (attention output projection)는 FP4에서 명시적으로 제외됩니다. 이는 작지만 중요한 세부 사항으로, 핵심적인 출력 경로를 전체 정밀도 (full precision)로 유지하여 성능을 보존합니다.

벤치마크 영향 (Benchmark Impact)

결과가 모든 것을 말해줍니다:

벤치마크 (Benchmark)	FP8 베이스라인 (Baseline)	MXFP4 (Expert-Only)	Δ
SWE-Bench Pro	57.2%	58.8%	+2.80%
...

여기서 핵심은 MXFP4 expert-only 양자화가 손실에 가까운 (near-lossless) 품질을 달성했다는 점입니다. 또한 에이전트 기반 코딩 (agentic coding) 유스케이스에서 실질적으로 가장 중요한 두 가지 벤치마크(SWE-Bench Pro 및 Claw-Eval)에서는 실제로 FP8 베이스라인을 능가했습니다. 이는 아마도 규제화 효과 (regularization effect)일 가능성이 높습니다. 즉, QAT(양자화 인식 학습) 과정 중 발생하는 양자화 노이즈가 약한 확률적 섭동 (stochastic perturbation)으로 작용하여, 분포가 변화된 평가 세트 (distribution-shifted evaluation sets)에서의 일반화 성능을 향상시킨 것입니다.

3. 기술 2 — DFlash: 블록 확산 투기적 디코딩 (Block-Diffusion Speculative Decoding) {#dflash}

DFlash vs traditional speculative decoding: parallel block-masked prediction

투기적 디코딩의 전제 (The Speculative Decoding Premise)

투기적 디코딩 (Speculative decoding)은 N개의 토큰을 생성하는 데 필요한 백본 (backbone) 순전파 (forward pass)의 유효한 횟수를 줄이기 위해 잘 확립된 기술입니다. 핵심 아이디어는 다음과 같습니다:

작고 저렴한 **초안 모델 (draft model)**이 자기회귀적 (autoregressively)으로 K개의 후보 토큰을 생성합니다.
거대한 **백본 모델 (backbone model)**이 단 한 번의 병렬 순전파를 통해 K개의 후보를 모두 검증합니다.
기각 샘플링 (rejection sampling) 절차를 통해 검증된 토큰의 접두사 (prefix)를 손실 없이 수용합니다 (출력 분포에 변화 없음).
평균적으로, 각 백본 순전파는 α × K 개의 토큰을 생성하며, 여기서 α는 수용률 (acceptance rate, 0 < α ≤ 1)입니다.

처리량(throughput) 이득은 백본 순전파당 1개 토큰 대비 α × K가 됩니다. 만약 초안 모델이 K=4개의 토큰을 생성하고 α=0.8의 수용률을 달성한다면, 백본 순전파당 약 3.2개의 유효 토큰을 얻게 되며, 이는 3.2배의 개선을 의미합니다.

전통적인 병목 현상 (The Traditional Bottleneck)

전통적인 추측 디코딩 (Speculative Decoding)은 구조적인 문제를 가지고 있습니다. 초안 모델 (Draft model)이 토큰을 자기회귀적 (Autoregressively) 으로, 즉 이전의 모든 컨텍스트를 참조하며 한 번에 하나씩 직렬로 생성한다는 점입니다. 이는 다음을 의미합니다:

초안 연산량이 컨텍스트 길이(Context length)에 따라 선형적으로 증가합니다 (각 단계가 전체 시퀀스에 대해 $O(n)$의 어텐션(Attention)을 수행함).
초안 모델은 높은 $\alpha$를 달성할 수 있을 만큼 충분히 강력해야 하지만, 더 강력한 초안 모델은 비용이 더 많이 들어 절감 효과를 상쇄합니다.
매우 긴 컨텍스트(MiMo-V2.5-Pro의 경우와 같은 1M 토큰 윈도우)의 경우, 초안 모델의 비용이 감당할 수 없는 수준이 됩니다.

여기에 근본적인 긴장 관계가 존재합니다. 저렴한 초안 모델이 필요하지만, 저렴한 초안 모델은 수락률 (Acceptance rate)이 낮다는 점입니다.

DFlash: 직렬 병목 현상의 타파

DFlash는 연구 커뮤니티의 방식과는 근본적으로 다른 초안 생성 패러다임을 채택합니다: 바로 블록 단위 마스크 병렬 예측 (Block-level masked parallel prediction) 입니다. 토큰을 하나씩 생성하는 대신, DFlash 초안 모델은 다음과 같이 동작합니다:

K개의 위치가 마스킹된 (Masked) 컨텍스트(알 수 없는 토큰 블록)를 입력으로 받습니다.
문제를 조건부 마스크 언어 모델링 (Conditional masked language modeling)으로 취급하여, 단 한 번의 순전파 (Forward pass) 과정에서 K개의 마스킹된 모든 위치를 동시에 채웁니다.
백본 (Backbone) 모델이 거부 샘플링 (Rejection sampling)을 통해 채워진 블록 전체를 한 번에 검증합니다.

이를 통해 초안 단계에서의 직렬 자기회귀 제약을 완전히 제거했습니다. 이제 초안 모델의 비용은 선형적이지 않고, 블록 크기에 관계없이 일정하게 (Constant with respect to block size) 유지됩니다 (K의 값과 상관없이 단 한 번의 병렬 순전파 수행).

긴 컨텍스트 효율성을 위한 SWA 트릭

DFlash 초안 생성기가 MiMo의 1M 컨텍스트 윈도우에서 효율적으로 작동할 수 있도록, 팀은 중요한 아키텍처적 선택을 내렸습니다: 초안 생성기가 오직 슬라이딩 윈도우 어텐션 (Sliding Window Attention, SWA)만을 사용하도록 한 것입니다. 즉, 전체 컨텍스트가 아닌 로컬 윈도우(Local window)에만 어텐션을 수행합니다. MiMo-V2.5의 백본이 이미 하위 레이어에서 SWA를 사용하고 있기 때문에, 초안 생성기도 이러한 아키텍처적 모티프를 공유합니다.

그 결과는 매우 중요합니다. 초안 생성기(drafter)의 예측당 연산량(per-prediction compute)이 컨텍스트 길이(context length)에 따라 선형적으로 증가하는 대신 **상수(constant)**가 됩니다. 이를 통해 초안 생성 비용의 폭발 없이 1M 토큰 컨텍스트를 서비스할 수 있습니다.

Muon 및 자기 증류(Self-Distillation)를 이용한 학습

5개 레이어로 구성된 BF16 DFlash 초안 생성기는 다음을 사용하여 학습됩니다:

Xiaomi가 어떻게 1조 개의 파라미터를 가진 모델에서 초당 1,000 토큰을 달성했는가: LLM 추론 최적화 심층 분석

요약

핵심 포인트

Xiaomi가 어떻게 1조 개의 파라미터를 가진 모델에서 초당 1,000 토큰을 달성했는가: LLM 추론 최적화 심층 분석

목차

서론

1. 문제점: 왜 1조 파라미터 추론은 차원이 다른 괴물인가 {#the-problem}

2. 기술 1 — 전문가 전용 FP4 (MXFP4) 양자화 {#fp4-quantization}

수치로 보는 대역폭 병목 현상 (Bandwidth Bottleneck)

MoE의 통찰: 전문가(Experts)는 더 관대하다

QAT를 적용한 MXFP4

벤치마크 영향 (Benchmark Impact)

3. 기술 2 — DFlash: 블록 확산 투기적 디코딩 (Block-Diffusion Speculative Decoding) {#dflash}

투기적 디코딩의 전제 (The Speculative Decoding Premise)

전통적인 병목 현상 (The Traditional Bottleneck)

DFlash: 직렬 병목 현상의 타파

긴 컨텍스트 효율성을 위한 SWA 트릭

Muon 및 자기 증류(Self-Distillation)를 이용한 학습

댓글