본문으로 건너뛰기

© 2026 Molayo

GeekNews헤드라인2026. 06. 09. 11:42

MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델

요약

Xiaomi의 MiMo-V2.5-Pro-UltraSpeed는 1T 파라미터 규모에서 초당 1000토큰 이상의 생성 속도를 달성한 모델입니다. FP4 양자화와 DFlash speculative decoding을 결합한 모델-시스템 코디자인을 통해 전용 하드웨어 없이 일반 GPU만으로 압도적인 성능을 구현했습니다.

핵심 포인트

  • 1T 모델에서 초당 1000+ tokens/s 생성 속도 최초 돌파
  • FP4 양자화 및 DFlash speculative decoding 기술 적용
  • 전용 가속기 없이 commodity GPU만으로 고속 추론 구현
  • Coding Agent 및 실시간 의사결정 패러다임 전환 기대

1조(1T) 파라미터 모델에서 디코딩 속도1000 tokens/s를 처음으로 돌파한 모델- 전용 하드웨어가 아닌
commodity GPU만으로 속도를 달성했으며, 단일 표준8-GPU 노드에서 1000+ tps 출력 구현 FP4 양자화DFlash speculative decoding을 결합한 모델-시스템 codesign이 핵심 기술- API는 신청 기반·기간 한정으로 제공되며,
3배 가격에 약 10배 생성 속도를 표방 - 1000 tps 돌파는 단순 속도 향상이 아니라
Coding Agent·실시간 의사결정 등 AI 응용 패러다임 자체를 바꾸는 전환점

Xiaomi MiMo-V2.5-Pro-UltraSpeed 출시

  • TileRT와 협업해
    1조 파라미터 모델에서 디코딩 속도 1000 tokens/s를 처음 돌파, 실시간 응답과 즉각적 반복이 가능한 수준의 속도 제공 - 실시간 생성 속도 비교에서
    최대 약 1200 tokens/s도달 - 모델이 충분히 빨라지면 기다리는 도구가 아니라 사고의 연장(extension of thinking)으로 작동한다는 관점 제시

기간 한정 · 신청 기반 제공

  • API는 한정 프로모션 가격으로 출시,
    MiMo-V2.5-Pro 대비 3배 비용에 약10배 생성 속도제공 (API 전용, Token Plan 미지원) - 고속 추론 리소스 제약으로 신청 기반·기간 한정 운영, 승인 사용자만
    **2026년 6월 9일~6월 23일 23:59 (UTC+8)**동안 API 이용 가능 -

신청 방법

  • API 플랫폼은 platform.xiaomimimo.com/ultraspeed, 신청해도 승인 보장되지 않으며 실제 비즈니스 수요가 있는 기업·전문 개발자 우선

  • 표준 모델 접근은 MiMo-V2.5 시리즈를 통해 제공

Chat 체험 (트라이얼 중 무료)

  • 승인 사용자에게 2주간 무료 Chat 접근 제공, 진입점은 ultraspeed.xiaomimimo.com
  • 계정당
    하루 최대 10회대기열 진입, 세션당최대 30분,5분 이상 유휴시 자동 해제

1000 tokens/s — 속도를 넘어선 패러다임 전환

  • 1T 규모에서 1000 tps 돌파는 단순히 빠른 타자기가 아니라 AI 응용 패러다임 자체를 근본적으로 흔드는 변화

속도가 곧 지능으로 전환

  • 동일한 실제 시간(wall-clock) 내에서 수십 개의 추론 경로를 병렬 실행(
    Best-of-N / Tree Search), 백그라운드에서 자동 검증·자가 수정해 추론 품질 직접 향상

  • 동일한 실제 시간(wall-clock) 내에서 수십 개의 추론 경로를 병렬 실행(

Coding Agent의 생산성 한계 해제

  • 기존에는 추론 지연(inference latency)이 병목이라 개발자가 화면 앞에서 대기, 1000 tps에서는 코드 생성 속도와 생산 효율이 패러다임 수준으로 가속

실시간 의사결정 루프 진입

  • 밀리초 단위 "think-respond" 사이클로 1T 플래그십 모델이
    고빈도 퀀트 트레이딩 신호 생성, 즉시 이상거래 차단, 지능형 입찰, 실시간 대화등 시간 민감 시나리오에 결합 가능 - 수술 보조·의료 영상 분석 같은 생사 상황에 적용 시, 병변 분석·위험 예측을 단축한 매 초가 외과의에게 추가 자유도를 부여한다는 관점 제시

  • 밀리초 단위 "think-respond" 사이클로 1T 플래그십 모델이

극한의 모델-시스템 Codesign

1T 모델에서 1000+ tps는 단일 기법이 아니라

MiMo 모델 팀과 TileRT 시스템 팀의 극한 codesign 결과물 -
유사 속도를 위해 업계가 흔히 의존하는 전용 하드웨어(

Cerebras의 Wafer-Scale,Groq의 on-chip SRAM 커스텀 아키텍처)와 달리, commodity GPU에서 모델-시스템 codesign만으로 달성 -
모델 측은 대역폭 병목을 겨냥한

FP4 양자화로 모델 크기·메모리 접근 부담 축소, 동시에 블록 단위 마스킹 병렬 예측 기반DFlash도입으로 검증 단계당 수용 토큰 길이 증가 -
시스템 측 TileRT는 해당 알고리듬 특성에 맞춘 컴파일 엔진과 연산 커널 제공, 단일 표준 8-GPU commodity 노드에서 1000+ tps 출력 실현

3.1 FP4 Quantization

  • 1T 규모에서 기존 8비트(FP8/INT8)·16비트 추론은 메모리 점유와 대역폭 압박이 과도, 비트 폭 축소가 디코딩 속도에 직접 기여

  • 검증된 사실상 무손실
    **FP4(MXFP4)**포맷 채택, 전체 모델에 단순 적용 시 복잡한 추론·논리·코드 생성에서 성능 저하 발생 **MoE(Mixture of Experts)아키텍처에서 파라미터 대부분을 차지하고 양자화 내성이 가장 높은 Experts만 선택적으로 FP4로 양자화, 그 외 모듈은 원래 정밀도 유지FP4 QAT(Quantization-Aware Training)**로 모델 크기 축소·하드웨어 대역폭 활용 극대화, 전반적 성능은 원본과 사실상 동등 수준 유지

3.2 DFlash Speculative Decoding

  • 전통 speculative decoding은 작은 draft 모델이 후속 토큰을 추측하고 대형 모델이 검증하는 방식, draft 품질이 수용률을 좌우하지만 강한 draft일수록 연산 비용 증가라는 본질적 긴장 존재
    DFlash는 draft 모델이 단일 forward pass로 마스킹된 블록 전체를 채워 "autoregressive drafting"의 직렬 제약 제거Muon 2차 최적화기와 모델 self-distillation을 사용해 draft 단계 오버헤드를 이론적 최소치 근처까지 압축- draft 모델은
    **Sliding Window Attention(SWA)**만 사용, MiMo-V2 시리즈의 SWA 설계와 자연스럽게 정렬되고 완전한 prefix 의존 제거로 예측당 연산을 context 길이 비례에서 상수로 축소 - 학습 시 mask-signal 샘플링을 GPU-local 샤드로 내려, 단일 시퀀스가 한 스텝에서 수만 개 독립 학습 신호 생성하면서 디바이스 간 통신 오버헤드 회피

  • draft 모델은

  • 블록 크기를 8로 제한해 검증 오버헤드 축소·동시성 증가, 높은 수용 길이가 곧바로 높은 추론 처리량으로 전환

  • 시나리오별 평균 수용 길이(Acceptance Length)

  • Coding 6.30 (일부 샘플 최대 7.14, 8개 draft 토큰 중 6~7개 수용)

  • Math / Reasoning 5.56

  • Agent 4.29

  • 의미적으로 더 분산되고 불확실성이 높은 일반 대화 시나리오에서는 현재 수용률이 아직 낮아 지속 최적화 진행 중

3.3 TileRT 초저지연 추론 커널 / 시스템

  • 1000 tokens/s 동작 주파수에서 각 연산자의 수명이 마이크로초 단위로 압축, 전통 추론 시스템의 "operator boundaries"가 핵심 병목으로 부상
  • 연산자 실행 시작·하드웨어 동기화·전역 메모리 왕복마다 실행 흐름이 끊겨 가시적
    **"Execution Gaps"**발생 -

TileRT의 패러다임급 실행 모델 혁신

Persistent Engine Kernel: 연산자별 실행 시작 방식 폐기, 전체 연산 파이프라인을 GPU 내부에 상시 상주·흐르게 유지해 데이터 이동과 연산의 극한 중첩(overlap) 달성Warp Specialization(이기종 파이프라인 협업): Tile 수준에서 통신·데이터 이동·텐서 연산을 더 세밀하게 물리적 분해, 동질적 lock-step 모델을 깨고 GPU를 정밀 조율된 이기종 실행 시스템으로 전환

마이크로초 단위 하드웨어-소프트웨어 심층 융합 (Codesign)

  • 모델 계층은 MoE Experts 혼합 FP4 양자화와 1조 파라미터 아키텍처용 SWA 정렬 DFlash speculative decoding 채택, TileRT는 이 알고리듬 특성·양자화 방식과 긴밀히 결합해 맞춤형 컴파일 엔진·연산 커널 제공
  • 두 팀이 하드웨어 물리에 기반한 공동 엔지니어링 트레이드오프를 통해 실행 압력을 하드웨어 경계 안에서 부드럽게 수렴
  • TileRT는 차세대 AI 인프라·초저지연 추론에 집중하는 시스템 아키텍처 팀으로, persistent kernel·tile 파이프라인·이기종 협업의 풀스택 돌파로 복잡한 이기종 환경에서 극한의 연산 활용 달성

추가 데모 영상

  • 10초 만에 Snake 게임을 만드는 데모
  • MacOS 인터페이스를 1분만에 재생성하는 데모

오픈소스 및 전망

  • HuggingFace에
    MiMo-V2.5-Pro-FP4-DFlash체크포인트 오픈소스 공개, FP4 양자화 가중치와 DFlash 모델 파라미터 포함 MiMo-V2.5에 대한 UltraSpeed 지원준비 중

AI 자동 생성 콘텐츠

본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0