Uploaded Unsloth Qwen3.6-35B-A3B UD XL models with MTP grafted, here are the
요약
본 기술 기사는 Unsloth가 Qwen3.6-35B-A3B UD XL 모델에 MTP(Memory-Targeted Parallelism) 레이어를 접목한 결과를 공유합니다. 테스트 결과, 특히 5090 FE와 같은 하드웨어 환경에서 MTP를 적용했을 때 상당한 추론 속도 향상(t/s 증가)이 관찰되었습니다. Q4 및 Q8 양쪽 모두에서 성능 개선이 확인되었으며, 이는 모델 아키텍처와 lamba.cpp의 MTP 구현 간의 상호작용에 기인할 수 있습니다.
핵심 포인트
- Qwen3.6-35B-A3B UD XL 모델을 기반으로 MTP(Memory-Targeted Parallelism) 레이어가 적용된 버전이 공개되었습니다.
- MTP를 적용했을 때, 특히 5090 FE와 같은 고성능 하드웨어에서 추론 속도(t/s)가 눈에 띄게 향상되는 것이 확인되었습니다 (예: Q4 기준 약 215 t/s $\rightarrow$ 228.83 t/s).
- 이러한 성능 향상은 모델의 양자화 수준(Q4, Q8)과 하드웨어 구성에 따라 다르게 나타날 수 있습니다.
- 전반적인 속도 개선은 lamba.cpp의 MTP 구현과 Qwen35MoE 아키텍처 간의 시너지 효과일 가능성이 제기됩니다.
이전 글 https://www.reddit.com/r/LocalLLaMA/comments/1t5ageq 에서 몇몇 사람들이 35B A3B 버전을 요청했습니다.
모델은 HuggingFace https://huggingface.co/havenoammo/Qwen3.6-35B-A3B-MTP-GGUF 에 업로드되어 있습니다. MTP 레이어와 convert.py 를 포함하고 있습니다.
결과가 훌륭하지는 않습니다. Q4 는 6% 의 속도 증가만 얻었고, Q8 은 2.5% 만 얻었습니다. 27B 모델에서는 2-2.5 배의 성능 향상이 있었으므로, 이는 llama.cpp 의 MTP 구현과 qwen35moe 아키텍처와 관련이 있을 수 있으며, 또는 모델의 한계일 수도 있습니다. 결과는 예비적이며 향후 변경될 수 있습니다. 어쨌든 궁금한 분들을 위해 보고합니다.
Edit: u/AdamDhahabi 가 보고했습니다:
> 2x 5070 Ti + 3090: Q8 은 110 t/s 에서 165 t/s 로 증가했습니다.
> 27B dense 모델은 2-2.5 배의 속도입니다.
이득은 설정에 따라 달라질 수 있습니다. 시도해 보세요!
제 테스트 결과:
Q4 에 hello can you tell me a story 프롬프트를 사용했습니다.
Hardware: 5090 FE
MTP 없이: 215 t/s
prompt eval time = 24.12 ms / 17 tokens ( 1.42 ms per token, 704.84 tokens per second)
eval time = 6872.43 ms / 1478 tokens ( 4.65 ms per token, 215.06 tokens per second)
total time = 6896.55 ms / 1495 tokens
MTP 사용: 228.83 t/s
prompt eval time = 30.08 ms / 17 tokens ( 1.77 ms per token, 565.10 tokens per second)
eval time = 8552.05 ms / 1957 tokens ( 4.37 ms per token, 228.83 tokens per second)
total time = 8582.13 ms / 1974 tokens
...
동일한 프롬프트 Q8.
Hardware: 5090 FE + 3090
MTP 없이: 148.20 t/s
prompt eval time = 25.80 ms / 17 tokens ( 1.52 ms per token, 658.97 tokens per second)
eval time = 11525.23 ms / 1708 tokens ( 6.75 ms per token, 148.20 tokens per second)
total time = 11551.03 ms / 1725 tokens
MTP 사용: 152.02 t/s
prompt eval time = 39.39 ms / 17 tokens ( 2.32 ms per token, 431.61 tokens per second)
eval time = 10123.54 ms / 1539 tokens ( 6.58 ms per token, 152.02 tokens per second)
total time = 10162.93 ms / 1556 tokens
...
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기