본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 06. 15. 09:29

StepFun 3.7 Flash MTP 벤치마크: Strix Halo

요약

AMD Strix Halo 플랫폼에서 StepFun 3.7 Flash 모델의 MTP(Multi-Token Prediction) 성능을 벤치마크한 결과입니다. MTP 적용 시 프리필 성능 저하 없이 디코딩 속도가 약 27.5% 향상됨을 확인했습니다.

핵심 포인트

  • MTP 적용 시 디코딩 속도 27.5% 향상 (20.4 → 26.0 tok/s)
  • 프리필 성능은 베이스라인과 거의 동일하게 유지
  • 초안 수락률(Draft acceptance rate) 84.7% 기록
  • Strix Halo APU 환경에서 200B MoE 모델의 유용한 로컬 추론 성능 입증
  • MTP 사용 시 디코딩 중 소켓 전력 약 14% 감소

이것은 패치된 llama.cpp Vulkan/RADV 빌드를 통해 제공되는 공식 StepFun MTP Q8_0 초안(draft) 모델을 포함한 StepFun Step-3.7-Flash UD-IQ4_XS 메인 모델입니다.

호스트 (Host)

시스템: AMD Ryzen AI Max+ 395 / Radeon 8060S (gfx1151)
메모리: 128 GB 통합 LPDDR5X
BIOS UMA / VRAM: 4 GB UMA 전용 VRAM
GTT 상한선: 112 GiB
IOMMU: 활성화됨 (amd_iommu=on)
OS: Ubuntu 25.04 (Plucky)
커널: 6.18.1-061801-generic
Mesa / RADV: Mesa 25.2.8 / RADV
ROCm: 7.1.1 베이스라인; 일부 후속 행은 ROCm 7.2.x 런타임 라이브러리도 참조함

모델 (Model)

메인 모델: StepFun Step-3.7-Flash UD-IQ4_XS
디스크 상의 메인 모델 크기: 95,336,010,208 바이트 / 88.79 GiB
메인 모델 샤드(shards): 3개
초안 모델: Step-3.7-Flash-MTP-Q8_0.gguf
초안 모델 크기: 약 3.5 GiB
아키텍처: step35
모델 클래스: 총 파라미터 약 200B / 토큰당 활성 파라미터 약 11B
백엔드: Step-3.7 MTP 패치가 적용된 llama.cpp Vulkan/RADV b9360
이 벤치마크에 사용된 컨텍스트(Context): 12,288
MTP 설정: DRAFT_N=2, PMIN=0.60, UBATCH=512

최근 측정 수치

지표StepFun MTPNon-MTP 베이스라인변화
대기 상태 로드(Load to listening)~31 s~31 s시작 페널티 관찰되지 않음
프리필(Prefill) / 프롬프트 처리211.2 tok/s212.0 tok/s거의 동일
디코딩(Decode) / 토큰 생성26.0 tok/s20.4 tok/s+27.5%
정규화된 실제 시간(Normalized wall time), 1150-in/2000-out82.4 s103.4 s20.8% 더 빠름
두 개의 동시 요청19.7 / 19.6 tok/s각각 17.14 tok/s슬롯당 +15%
두 슬롯 합계35.7 tok/s~34 tok/s총합 +5%
디코딩 중 소켓 전력~73 W~85 W~14% 낮음

주요 결과: MTP는 프리필(prefill) 성능을 저하시키지 않으면서 디코딩(decode) 속도를 실질적으로 향상시킵니다. 약 200B 규모의 MoE(Mixture of Experts) 모델에 대해, 128 GB Strix Halo APU에서 26 tok/s의 단일 스트림 성능은 유용한 로컬 성능입니다.

초안 수락률 (Draft acceptance)
표준 디코딩 프로브(decode probe) 결과:

초안 생성 토큰: 491
수락된 초안 토큰: 416
수락/초안 비율: 84.7%

중요 출처 참고: 요약된 bench.json에는 현재 "mtp.acceptance_pct": null로 되어 있습니다.

84.7%의 수락(acceptance) 수치는 집계된 bench.json 필드가 아니라, 가공되지 않은 tg_probe.json 타이밍 카운터(timing counters)에서 도출된 것입니다.

다른 로컬 레인(local lanes)과의 비교 맥락
이 행들은 품질이 동일한 비교 대상은 아니지만, 속도 계층(speed tier)을 파악하는 데 도움을 줍니다:

모델 / 레인 | 총 파라미터 / 활성 파라미터 | 양자화 (Quant) / 경로 (path) | Prefill | Decode

Qwen 3.6 35B MTP | 35B / A3B | Q4_K_M, Vulkan | (MTP 미기재) | 81.2 tok/s
gpt-oss-120b | 117B / A5.1B | MXFP4, Vulkan | 787 tok/s | 46.7 tok/s
Qwen3-Coder-Next coder | MoE | UD-Q4_K_XL, Vulkan | 723.2 tok/s | 44.4 tok/s
Qwen 3.5 122B MTP | 122B / A10B | MXFP4_MOE, Vulkan | MTP 332.1 tok/s | 26.7 tok/s
StepFun 3.7 Flash MTP | ~200B / A11B | UD-IQ4_XS + Q8 MTP draft | 211.2 tok/s | 26.0 tok/s
StepFun 3.7 Flash plain | ~200B / A11B | UD-IQ4_XS, MTP 없음 | 212.0 tok/s | 20.4 tok/s

흥미로운 점은 StepFun MTP가 훨씬 더 큰 총 파라미터(total-parameter) 모델을 구동하면서도, Qwen 122B MTP와 대략적으로 동일한 디코드(decode) 계층에 위치한다는 것입니다. 이것이 최선의 레인인지 여부는 StepFun의 품질이 26 tok/s 계층을 소비할 만큼 가치가 있는지에 달려 있습니다.

/u/westsunset 제출 / r/LocalLLaMA
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0