r/LocalLLaMA분석2026. 05. 08. 10:39

Uploaded Unsloth Qwen3.6-35B-A3B UD XL models with MTP grafted, here are the

요약

본 기술 기사는 Unsloth가 Qwen3.6-35B-A3B UD XL 모델에 MTP(Memory-Targeted Parallelism) 레이어를 접목한 결과를 공유합니다. 테스트 결과, 특히 5090 FE와 같은 하드웨어 환경에서 MTP를 적용했을 때 상당한 추론 속도 향상(t/s 증가)이 관찰되었습니다. Q4 및 Q8 양쪽 모두에서 성능 개선이 확인되었으며, 이는 모델 아키텍처와 lamba.cpp의 MTP 구현 간의 상호작용에 기인할 수 있습니다.

핵심 포인트

Qwen3.6-35B-A3B UD XL 모델을 기반으로 MTP(Memory-Targeted Parallelism) 레이어가 적용된 버전이 공개되었습니다.
MTP를 적용했을 때, 특히 5090 FE와 같은 고성능 하드웨어에서 추론 속도(t/s)가 눈에 띄게 향상되는 것이 확인되었습니다 (예: Q4 기준 약 215 t/s $\rightarrow$ 228.83 t/s).
이러한 성능 향상은 모델의 양자화 수준(Q4, Q8)과 하드웨어 구성에 따라 다르게 나타날 수 있습니다.
전반적인 속도 개선은 lamba.cpp의 MTP 구현과 Qwen35MoE 아키텍처 간의 시너지 효과일 가능성이 제기됩니다.

이전 글 https://www.reddit.com/r/LocalLLaMA/comments/1t5ageq 에서 몇몇 사람들이 35B A3B 버전을 요청했습니다.

모델은 HuggingFace https://huggingface.co/havenoammo/Qwen3.6-35B-A3B-MTP-GGUF 에 업로드되어 있습니다. MTP 레이어와 convert.py 를 포함하고 있습니다.

결과가 훌륭하지는 않습니다. Q4 는 6% 의 속도 증가만 얻었고, Q8 은 2.5% 만 얻었습니다. 27B 모델에서는 2-2.5 배의 성능 향상이 있었으므로, 이는 llama.cpp 의 MTP 구현과 qwen35moe 아키텍처와 관련이 있을 수 있으며, 또는 모델의 한계일 수도 있습니다. 결과는 예비적이며 향후 변경될 수 있습니다. 어쨌든 궁금한 분들을 위해 보고합니다.

Edit: u/AdamDhahabi 가 보고했습니다:

> 2x 5070 Ti + 3090: Q8 은 110 t/s 에서 165 t/s 로 증가했습니다.
> 27B dense 모델은 2-2.5 배의 속도입니다.

이득은 설정에 따라 달라질 수 있습니다. 시도해 보세요!

제 테스트 결과:

Q4 에 hello can you tell me a story 프롬프트를 사용했습니다.

Hardware: 5090 FE

MTP 없이: 215 t/s

prompt eval time =      24.12 ms /    17 tokens (    1.42 ms per token,   704.84 tokens per second)
       eval time =    6872.43 ms /  1478 tokens (    4.65 ms per token,   215.06 tokens per second)
      total time =    6896.55 ms /  1495 tokens

MTP 사용: 228.83 t/s

prompt eval time =      30.08 ms /    17 tokens (    1.77 ms per token,   565.10 tokens per second)
       eval time =    8552.05 ms /  1957 tokens (    4.37 ms per token,   228.83 tokens per second)
      total time =    8582.13 ms /  1974 tokens
...

동일한 프롬프트 Q8.

Hardware: 5090 FE + 3090

MTP 없이: 148.20 t/s

prompt eval time =      25.80 ms /    17 tokens (    1.52 ms per token,   658.97 tokens per second)
       eval time =   11525.23 ms /  1708 tokens (    6.75 ms per token,   148.20 tokens per second)
      total time =   11551.03 ms /  1725 tokens

MTP 사용: 152.02 t/s

prompt eval time =      39.39 ms /    17 tokens (    2.32 ms per token,   431.61 tokens per second)
       eval time =   10123.54 ms /  1539 tokens (    6.58 ms per token,   152.02 tokens per second)
      total time =   10162.93 ms /  1556 tokens
...

AI 자동 생성 콘텐츠

원문 바로가기

Uploaded Unsloth Qwen3.6-35B-A3B UD XL models with MTP grafted, here are the

요약

핵심 포인트

댓글