StepFun 3.7 Flash MTP 벤치마크: Strix Halo
요약
AMD Strix Halo 플랫폼에서 StepFun 3.7 Flash 모델의 MTP(Multi-Token Prediction) 성능을 벤치마크한 결과입니다. MTP 적용 시 프리필 성능 저하 없이 디코딩 속도가 약 27.5% 향상됨을 확인했습니다.
핵심 포인트
- MTP 적용 시 디코딩 속도 27.5% 향상 (20.4 → 26.0 tok/s)
- 프리필 성능은 베이스라인과 거의 동일하게 유지
- 초안 수락률(Draft acceptance rate) 84.7% 기록
- Strix Halo APU 환경에서 200B MoE 모델의 유용한 로컬 추론 성능 입증
- MTP 사용 시 디코딩 중 소켓 전력 약 14% 감소
이것은 패치된 llama.cpp Vulkan/RADV 빌드를 통해 제공되는 공식 StepFun MTP Q8_0 초안(draft) 모델을 포함한 StepFun Step-3.7-Flash UD-IQ4_XS 메인 모델입니다.
호스트 (Host)
시스템: AMD Ryzen AI Max+ 395 / Radeon 8060S (gfx1151)
메모리: 128 GB 통합 LPDDR5X
BIOS UMA / VRAM: 4 GB UMA 전용 VRAM
GTT 상한선: 112 GiB
IOMMU: 활성화됨 (amd_iommu=on)
OS: Ubuntu 25.04 (Plucky)
커널: 6.18.1-061801-generic
Mesa / RADV: Mesa 25.2.8 / RADV
ROCm: 7.1.1 베이스라인; 일부 후속 행은 ROCm 7.2.x 런타임 라이브러리도 참조함
모델 (Model)
메인 모델: StepFun Step-3.7-Flash UD-IQ4_XS
디스크 상의 메인 모델 크기: 95,336,010,208 바이트 / 88.79 GiB
메인 모델 샤드(shards): 3개
초안 모델: Step-3.7-Flash-MTP-Q8_0.gguf
초안 모델 크기: 약 3.5 GiB
아키텍처: step35
모델 클래스: 총 파라미터 약 200B / 토큰당 활성 파라미터 약 11B
백엔드: Step-3.7 MTP 패치가 적용된 llama.cpp Vulkan/RADV b9360
이 벤치마크에 사용된 컨텍스트(Context): 12,288
MTP 설정: DRAFT_N=2, PMIN=0.60, UBATCH=512
최근 측정 수치
| 지표 | StepFun MTP | Non-MTP 베이스라인 | 변화 |
|---|---|---|---|
| 대기 상태 로드(Load to listening) | ~31 s | ~31 s | 시작 페널티 관찰되지 않음 |
| 프리필(Prefill) / 프롬프트 처리 | 211.2 tok/s | 212.0 tok/s | 거의 동일 |
| 디코딩(Decode) / 토큰 생성 | 26.0 tok/s | 20.4 tok/s | +27.5% |
| 정규화된 실제 시간(Normalized wall time), 1150-in/2000-out | 82.4 s | 103.4 s | 20.8% 더 빠름 |
| 두 개의 동시 요청 | 19.7 / 19.6 tok/s | 각각 17.14 tok/s | 슬롯당 +15% |
| 두 슬롯 합계 | 35.7 tok/s | ~34 tok/s | 총합 +5% |
| 디코딩 중 소켓 전력 | ~73 W | ~85 W | ~14% 낮음 |
주요 결과: MTP는 프리필(prefill) 성능을 저하시키지 않으면서 디코딩(decode) 속도를 실질적으로 향상시킵니다. 약 200B 규모의 MoE(Mixture of Experts) 모델에 대해, 128 GB Strix Halo APU에서 26 tok/s의 단일 스트림 성능은 유용한 로컬 성능입니다.
초안 수락률 (Draft acceptance)
표준 디코딩 프로브(decode probe) 결과:
초안 생성 토큰: 491
수락된 초안 토큰: 416
수락/초안 비율: 84.7%
중요 출처 참고: 요약된 bench.json에는 현재 "mtp.acceptance_pct": null로 되어 있습니다.
84.7%의 수락(acceptance) 수치는 집계된 bench.json 필드가 아니라, 가공되지 않은 tg_probe.json 타이밍 카운터(timing counters)에서 도출된 것입니다.
다른 로컬 레인(local lanes)과의 비교 맥락
이 행들은 품질이 동일한 비교 대상은 아니지만, 속도 계층(speed tier)을 파악하는 데 도움을 줍니다:
모델 / 레인 | 총 파라미터 / 활성 파라미터 | 양자화 (Quant) / 경로 (path) | Prefill | Decode
Qwen 3.6 35B MTP | 35B / A3B | Q4_K_M, Vulkan | (MTP 미기재) | 81.2 tok/s
gpt-oss-120b | 117B / A5.1B | MXFP4, Vulkan | 787 tok/s | 46.7 tok/s
Qwen3-Coder-Next coder | MoE | UD-Q4_K_XL, Vulkan | 723.2 tok/s | 44.4 tok/s
Qwen 3.5 122B MTP | 122B / A10B | MXFP4_MOE, Vulkan | MTP 332.1 tok/s | 26.7 tok/s
StepFun 3.7 Flash MTP | ~200B / A11B | UD-IQ4_XS + Q8 MTP draft | 211.2 tok/s | 26.0 tok/s
StepFun 3.7 Flash plain | ~200B / A11B | UD-IQ4_XS, MTP 없음 | 212.0 tok/s | 20.4 tok/s
흥미로운 점은 StepFun MTP가 훨씬 더 큰 총 파라미터(total-parameter) 모델을 구동하면서도, Qwen 122B MTP와 대략적으로 동일한 디코드(decode) 계층에 위치한다는 것입니다. 이것이 최선의 레인인지 여부는 StepFun의 품질이 26 tok/s 계층을 소비할 만큼 가치가 있는지에 달려 있습니다.
/u/westsunset 제출 / r/LocalLLaMA
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기