Reddit요약2026. 06. 15. 09:29

StepFun 3.7 Flash MTP 벤치마크: Strix Halo

요약

AMD Strix Halo 플랫폼에서 StepFun 3.7 Flash 모델의 MTP(Multi-Token Prediction) 성능을 벤치마크한 결과입니다. MTP 적용 시 프리필 성능 저하 없이 디코딩 속도가 약 27.5% 향상됨을 확인했습니다.

핵심 포인트

MTP 적용 시 디코딩 속도 27.5% 향상 (20.4 → 26.0 tok/s)
프리필 성능은 베이스라인과 거의 동일하게 유지
초안 수락률(Draft acceptance rate) 84.7% 기록
Strix Halo APU 환경에서 200B MoE 모델의 유용한 로컬 추론 성능 입증
MTP 사용 시 디코딩 중 소켓 전력 약 14% 감소

이것은 패치된 llama.cpp Vulkan/RADV 빌드를 통해 제공되는 공식 StepFun MTP Q8_0 초안(draft) 모델을 포함한 StepFun Step-3.7-Flash UD-IQ4_XS 메인 모델입니다.

호스트 (Host)

시스템: AMD Ryzen AI Max+ 395 / Radeon 8060S (gfx1151)
메모리: 128 GB 통합 LPDDR5X
BIOS UMA / VRAM: 4 GB UMA 전용 VRAM
GTT 상한선: 112 GiB
IOMMU: 활성화됨 (amd_iommu=on)
OS: Ubuntu 25.04 (Plucky)
커널: 6.18.1-061801-generic
Mesa / RADV: Mesa 25.2.8 / RADV
ROCm: 7.1.1 베이스라인; 일부 후속 행은 ROCm 7.2.x 런타임 라이브러리도 참조함

모델 (Model)

메인 모델: StepFun Step-3.7-Flash UD-IQ4_XS
디스크 상의 메인 모델 크기: 95,336,010,208 바이트 / 88.79 GiB
메인 모델 샤드(shards): 3개
초안 모델: Step-3.7-Flash-MTP-Q8_0.gguf
초안 모델 크기: 약 3.5 GiB
아키텍처: step35
모델 클래스: 총 파라미터 약 200B / 토큰당 활성 파라미터 약 11B
백엔드: Step-3.7 MTP 패치가 적용된 llama.cpp Vulkan/RADV b9360
이 벤치마크에 사용된 컨텍스트(Context): 12,288
MTP 설정: DRAFT_N=2, PMIN=0.60, UBATCH=512

최근 측정 수치

지표	StepFun MTP	Non-MTP 베이스라인	변화
대기 상태 로드(Load to listening)	~31 s	~31 s	시작 페널티 관찰되지 않음
프리필(Prefill) / 프롬프트 처리	211.2 tok/s	212.0 tok/s	거의 동일
디코딩(Decode) / 토큰 생성	26.0 tok/s	20.4 tok/s	+27.5%
정규화된 실제 시간(Normalized wall time), 1150-in/2000-out	82.4 s	103.4 s	20.8% 더 빠름
두 개의 동시 요청	19.7 / 19.6 tok/s	각각 17.14 tok/s	슬롯당 +15%
두 슬롯 합계	35.7 tok/s	~34 tok/s	총합 +5%
디코딩 중 소켓 전력	~73 W	~85 W	~14% 낮음

주요 결과: MTP는 프리필(prefill) 성능을 저하시키지 않으면서 디코딩(decode) 속도를 실질적으로 향상시킵니다. 약 200B 규모의 MoE(Mixture of Experts) 모델에 대해, 128 GB Strix Halo APU에서 26 tok/s의 단일 스트림 성능은 유용한 로컬 성능입니다.

초안 수락률 (Draft acceptance)
표준 디코딩 프로브(decode probe) 결과:

초안 생성 토큰: 491
수락된 초안 토큰: 416
수락/초안 비율: 84.7%

중요 출처 참고: 요약된 bench.json에는 현재 "mtp.acceptance_pct": null로 되어 있습니다.

84.7%의 수락(acceptance) 수치는 집계된 bench.json 필드가 아니라, 가공되지 않은 tg_probe.json 타이밍 카운터(timing counters)에서 도출된 것입니다.

다른 로컬 레인(local lanes)과의 비교 맥락
이 행들은 품질이 동일한 비교 대상은 아니지만, 속도 계층(speed tier)을 파악하는 데 도움을 줍니다:

모델 / 레인 | 총 파라미터 / 활성 파라미터 | 양자화 (Quant) / 경로 (path) | Prefill | Decode

흥미로운 점은 StepFun MTP가 훨씬 더 큰 총 파라미터(total-parameter) 모델을 구동하면서도, Qwen 122B MTP와 대략적으로 동일한 디코드(decode) 계층에 위치한다는 것입니다. 이것이 최선의 레인인지 여부는 StepFun의 품질이 26 tok/s 계층을 소비할 만큼 가치가 있는지에 달려 있습니다.

/u/westsunset 제출 / r/LocalLLaMA
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

StepFun 3.7 Flash MTP 벤치마크: Strix Halo

요약

핵심 포인트

댓글