> 초기 포스트에서는 turboquants 를 사용했다고 언급했습니다
요약
이 기술 기사는 Qwen 3.6 27B 모델에 Multi-Token Prediction (MTP) 기능을 지원하는 새로운 GGUF 양자화 버전을 소개합니다. MTP는 시뮬레이션 디코딩을 위한 내장 텐서 레이어를 사용하여 기존 GGUF 포맷으로는 불가능했던 기능입니다. 이 업데이트를 사용하면 Apple Silicon 및 NVIDIA GPU 환경에서 추론 속도가 최대 2.5배까지 향상되며, 최적의 성능과 메모리 관리를 위해 하드웨어 사양별로 권장되는 양자화(Quant) 및 KV 캐시 설정을 제공합니다. 사용자는 `llama.cpp`의 특정 PR 브랜치를 컴파일하고, `--spec-type mtp --spec-draft-n-max 5` 플래그를 사용하여 모델을 구동해야 합니다. 또한, Vision 기능과 MTP 기능을 동시에 사용하면 충돌이 발생할 수 있으므로 주의가 필요합니다.
핵심 포인트
- Qwen 3.6 27B에 Multi-Token Prediction (MTP) 지원 GGUF 버전이 출시되어 추론 속도가 최대 2.5배 향상되었습니다.
- 새로운 모델을 사용하려면 `llama.cpp`의 특정 PR 브랜치를 컴파일하고, `--spec-type mtp --spec-draft-n-max 5` 플래그를 반드시 포함해야 합니다.
- 하드웨어(Apple Silicon/NVIDIA) 및 메모리 용량에 따라 최적의 양자화(`IQ2_M`, `Q4_K_M` 등)와 KV 캐시 설정을 선택하여 성능과 컨텍스트 길이를 극대화할 수 있습니다.
- Vision 기능과 MTP 기능을 동시에 사용하면 충돌이 발생하므로, 두 기능을 함께 사용할 때는 주의가 필요합니다.
초기 포스트에서는 turboquants 를 사용했다고 언급했습니다. 그러나, llama.cpp 와 해당 PR 을 함께 구축하는 지시사항을 포함하지 않았습니다. 현재 해당 PR 은 불안정하며 관련 논의가 진행 중입니다. 따라서 저의 추천은 일부 손실이 있는 표준 q4_0 KV cache 압축으로 대체되었습니다.
올바른 jinja chat 템플릿과 함께 새로운 quants 가 업로드되었습니다 - Hugging Face 에서 다운로드를 계속 진행할 수 있습니다
최근 llama.cpp PR 은 Qwen 3.6 27B 에 MTP (Multi-Token Prediction) 을 지원합니다. 이는 시뮬레이션 디코딩을 위한 내장 텐서 레이어를 사용합니다. 기존 GGUF 의 어느 것도 이를 포함하지 않으며, 해당 PR 으로 변환해야 합니다.
저는 mac M2 Max 96GB 로 로컬에서 테스트했으며, 결과는 놀랍습니다: 2.5 배 속도 증가로 28 tok/s 까지 도달했습니다!
가장 유용한 quants 를 변환하여 Hugging Face 에 업로드했습니다. Apple Silicon 을 사용 중이더라도 MLX 대신 이를 사용해야 합니다. 다운로드 링크는 다음과 같습니다:
https://huggingface.co/froggeric/Qwen3.6-27B-MTP-GGUF
이것은 vLLM 특성에 의해 다른 도구에서 문제가 발생했던 원래 jinja chat 템플릿에 대해 제가 만든 7 개 수정 사항을 포함합니다:
https://huggingface.co/froggeric/Qwen-Fixed-Chat-Templates
현재는 이를 사용하려면 llama.cpp 의 자체 버전을 컴파일해야 합니다. 이는 상당히 간단합니다:
git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
...
그런 다음 API 엔드포인트로 서비스를 시작하려면 다음과 유사한 명령어를 사용하세요:
llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
--spec-type mtp --spec-draft-n-max 5 \
--cache-type-k q4_0 --cache-type-v q4_0 \
...
Vision 은 MTP 와 함께 사용될 때 llama.cpp 를 충돌시킵니다. 현재 PR 에서 2026-05-06 에 보고됨.
그만. 하나의 명령어로 세 가지 최적화:
| Flag | What it does | Impact |
|---|---|---|
--spec-type mtp --spec-draft-n-max 5 | Multi-Token Prediction (built into the model) | 2.5x faster generation |
| ... |
-m, -c, 및 --cache-type-k/v 를 아래 표에 따라 하드웨어에 맞게 조정하세요.
하드웨어에 따른 저의 추천:
Apple Silicon
| RAM | Quant | KV cache | Max context | Total used | Vision |
|---|---|---|---|---|---|
| 16 GB | IQ2_M | q4_0 | 32K | 11.1 GB | ✗ |
| ... |
NVIDIA GPU
Apple Silicon 과 동일한 모델 메모리, 약 1 GB CUDA 오버헤드 추가.
| VRAM | Quant | KV cache | Max context | Total VRAM used | Vision |
|---|---|---|---|---|---|
| 16 GB | IQ2_M | q4_0 | 200K | 15.7 GB | ✓ |
| ... |
24 GB Mac:
IQ3_M/q4_0 — Vision 과 함께 128K, 텍스트 전용 180K.32 GB Mac:
Q5_K_M/q4_0 — 텍스트 전용 262K. Vision 에서 262K 를 사용하려면Q4_K_M.Q5_K_M/q8_0 는 텍스트 전용 128K 에서 더 높은 KV 품질.48 GB+ Mac:
Q6_K/q8_0 — Vision 과 함께 262K 에서 가장 높은 품질 (31.2 GB).Q8_0/q8_0 는 완벽함 (37.3 GB).16 GB GPU:
IQ2_M/q4_0 — Vision 과 함께 200K.24 GB GPU:
Q4_K_M/q4_0 는 Vision 과 함께 262K 까지 도달. Vision 과 함께 180K 에서 더 높은 품질을 위해Q5_K_M/q4_0.48 GB+ GPU:
Q6_K/q8_0 — Vision 과 함께 262K 에서 고품질 (32.2 GB).Q8_0/q8_0 는 완벽함 (38.3 GB).
코딩 및 추론을 위해 q8_0 KV 와 함께 더 높은 quants 를 우선시하세요. 일반적인 채팅 및 RAG 에서는 q4_0 KV 와 더 낮은 quants 가 더 큰 컨텍스트와 함께 종종 충분합니다.
Vision adds ~0.9 GB for mmproj. macOS needs ≥ 8 GB for itself (16 GB Macs excepted — use ~4 GB). You can increase available memory by raising the wired memory limit, e.g. for a 96 GB Mac: sudo sysctl iogpu.wired_limit_mb=90112 (88 GB). NVIDIA reserves ~1 GB for CUDA.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기