본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 08. 00:07

> 초기 포스트에서는 turboquants 를 사용했다고 언급했습니다

요약

이 기술 기사는 Qwen 3.6 27B 모델에 Multi-Token Prediction (MTP) 기능을 지원하는 새로운 GGUF 양자화 버전을 소개합니다. MTP는 시뮬레이션 디코딩을 위한 내장 텐서 레이어를 사용하여 기존 GGUF 포맷으로는 불가능했던 기능입니다. 이 업데이트를 사용하면 Apple Silicon 및 NVIDIA GPU 환경에서 추론 속도가 최대 2.5배까지 향상되며, 최적의 성능과 메모리 관리를 위해 하드웨어 사양별로 권장되는 양자화(Quant) 및 KV 캐시 설정을 제공합니다. 사용자는 `llama.cpp`의 특정 PR 브랜치를 컴파일하고, `--spec-type mtp --spec-draft-n-max 5` 플래그를 사용하여 모델을 구동해야 합니다. 또한, Vision 기능과 MTP 기능을 동시에 사용하면 충돌이 발생할 수 있으므로 주의가 필요합니다.

핵심 포인트

  • Qwen 3.6 27B에 Multi-Token Prediction (MTP) 지원 GGUF 버전이 출시되어 추론 속도가 최대 2.5배 향상되었습니다.
  • 새로운 모델을 사용하려면 `llama.cpp`의 특정 PR 브랜치를 컴파일하고, `--spec-type mtp --spec-draft-n-max 5` 플래그를 반드시 포함해야 합니다.
  • 하드웨어(Apple Silicon/NVIDIA) 및 메모리 용량에 따라 최적의 양자화(`IQ2_M`, `Q4_K_M` 등)와 KV 캐시 설정을 선택하여 성능과 컨텍스트 길이를 극대화할 수 있습니다.
  • Vision 기능과 MTP 기능을 동시에 사용하면 충돌이 발생하므로, 두 기능을 함께 사용할 때는 주의가 필요합니다.

초기 포스트에서는 turboquants 를 사용했다고 언급했습니다. 그러나, llama.cpp 와 해당 PR 을 함께 구축하는 지시사항을 포함하지 않았습니다. 현재 해당 PR 은 불안정하며 관련 논의가 진행 중입니다. 따라서 저의 추천은 일부 손실이 있는 표준 q4_0 KV cache 압축으로 대체되었습니다.

올바른 jinja chat 템플릿과 함께 새로운 quants 가 업로드되었습니다 - Hugging Face 에서 다운로드를 계속 진행할 수 있습니다

최근 llama.cpp PR 은 Qwen 3.6 27B 에 MTP (Multi-Token Prediction) 을 지원합니다. 이는 시뮬레이션 디코딩을 위한 내장 텐서 레이어를 사용합니다. 기존 GGUF 의 어느 것도 이를 포함하지 않으며, 해당 PR 으로 변환해야 합니다.

저는 mac M2 Max 96GB 로 로컬에서 테스트했으며, 결과는 놀랍습니다: 2.5 배 속도 증가로 28 tok/s 까지 도달했습니다!

가장 유용한 quants 를 변환하여 Hugging Face 에 업로드했습니다. Apple Silicon 을 사용 중이더라도 MLX 대신 이를 사용해야 합니다. 다운로드 링크는 다음과 같습니다:

https://huggingface.co/froggeric/Qwen3.6-27B-MTP-GGUF

이것은 vLLM 특성에 의해 다른 도구에서 문제가 발생했던 원래 jinja chat 템플릿에 대해 제가 만든 7 개 수정 사항을 포함합니다:

https://huggingface.co/froggeric/Qwen-Fixed-Chat-Templates

현재는 이를 사용하려면 llama.cpp 의 자체 버전을 컴파일해야 합니다. 이는 상당히 간단합니다:

git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
...

그런 다음 API 엔드포인트로 서비스를 시작하려면 다음과 유사한 명령어를 사용하세요:

llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --spec-type mtp --spec-draft-n-max 5 \
  --cache-type-k q4_0 --cache-type-v q4_0 \
...

Vision 은 MTP 와 함께 사용될 때 llama.cpp 를 충돌시킵니다. 현재 PR 에서 2026-05-06 에 보고됨.

그만. 하나의 명령어로 세 가지 최적화:

FlagWhat it doesImpact
--spec-type mtp --spec-draft-n-max 5Multi-Token Prediction (built into the model)2.5x faster generation
...

-m, -c, 및 --cache-type-k/v 를 아래 표에 따라 하드웨어에 맞게 조정하세요.

하드웨어에 따른 저의 추천:

Apple Silicon

RAMQuantKV cacheMax contextTotal usedVision
16 GBIQ2_Mq4_032K11.1 GB
...

NVIDIA GPU

Apple Silicon 과 동일한 모델 메모리, 약 1 GB CUDA 오버헤드 추가.

VRAMQuantKV cacheMax contextTotal VRAM usedVision
16 GBIQ2_Mq4_0200K15.7 GB
...

24 GB Mac: IQ3_M/q4_0 — Vision 과 함께 128K, 텍스트 전용 180K.

32 GB Mac: Q5_K_M/q4_0 — 텍스트 전용 262K. Vision 에서 262K 를 사용하려면 Q4_K_M. Q5_K_M/q8_0 는 텍스트 전용 128K 에서 더 높은 KV 품질.

48 GB+ Mac: Q6_K/q8_0 — Vision 과 함께 262K 에서 가장 높은 품질 (31.2 GB). Q8_0/q8_0 는 완벽함 (37.3 GB).

16 GB GPU: IQ2_M/q4_0 — Vision 과 함께 200K.

24 GB GPU: Q4_K_M/q4_0 는 Vision 과 함께 262K 까지 도달. Vision 과 함께 180K 에서 더 높은 품질을 위해 Q5_K_M/q4_0.

48 GB+ GPU: Q6_K/q8_0 — Vision 과 함께 262K 에서 고품질 (32.2 GB). Q8_0/q8_0 는 완벽함 (38.3 GB).

코딩 및 추론을 위해 q8_0 KV 와 함께 더 높은 quants 를 우선시하세요. 일반적인 채팅 및 RAG 에서는 q4_0 KV 와 더 낮은 quants 가 더 큰 컨텍스트와 함께 종종 충분합니다.

Vision adds ~0.9 GB for mmproj. macOS needs ≥ 8 GB for itself (16 GB Macs excepted — use ~4 GB). You can increase available memory by raising the wired memory limit, e.g. for a 96 GB Mac: sudo sysctl iogpu.wired_limit_mb=90112 (88 GB). NVIDIA reserves ~1 GB for CUDA.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0