Qwen3.6 27B 순수 양자화: 16 GB VRAM에서 40 tok/s 달성
요약
16GB VRAM 환경에서 Qwen3.6 27B 모델을 효율적으로 구동하기 위한 순수 양자화(pure quantization) 실험 결과입니다. MTP 버전을 통해 토큰 생성 속도 40 tok/s를 달성하며 하드웨어 제약 내 최적화 방안을 제시합니다.
핵심 포인트
- 16GB VRAM에서 Qwen3.6 27B 모델 구동 가능
- MTP 버전 사용 시 최대 40 tok/s의 토큰 생성 속도 달성
- MTP와 Non-MTP 버전 간의 속도 및 처리 방식 차이 확인
- 양자화 모델의 크기와 퍼플렉서티(PPL) 간의 트레이드오프 분석
여러분 안녕하세요!
제 RTX 5060 Ti 16 GB에 Qwen3.6 27B Q4_K_M 모델을 맞추기 위해 진행한 실험 결과를 공유하고자 합니다. u/Due-Project-7507의 Ununnilium/Qwen3.6-27B-IQ4_XS-pure-GGUF 작업을 참고했습니다.
동일한 pure 양자화 (quantization) 방법을 사용하여, 16 GB VRAM에 완전히 들어가는 Q4_K_M GGUF 파일들을 생성할 수 있었습니다.
모델 URL: https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF
두 가지 버전이 있습니다: Q4_K_M MTP (15.4 GB) 및 Q4_K_M non-MTP (15.1 GB).
GGUF를 다운로드하여 최신 llama.cpp 버전으로 다음과 같이 실행할 수 있습니다:
llama-server -m Qwen3.6-27B-MTP-Q4_K_M-pure.gguf -fitt 128 -c 65536 -fa on -np 1 -ctk q5_0 -ctv q5_0 -ctxcp 18 --no-mmap --mlock --no-warmup --chat-template-kwargs '{"preserve_thinking": true}' --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 -ub 256 -b 1024 -ngl 99 --spec-type draft-mtp --spec-draft-n-max 2
토큰 속도 (TOKEN SPEED)
MTP 버전의 경우, 토큰 생성 (tg) 속도는 40 tok/s를 기록했지만 프롬프트 처리 (pp)는 더 느렸습니다. 반면 non-MTP 버전은 pp와 tg 모두 24 tok/s로 더 높았습니다.
| 버전 | 프롬프트 처리 (Prompt Processing) | 토큰 생성 (Token Generation) |
|---|---|---|
| MTP | 195 tok/s | 40 tok/s |
| Non MTP | 715 tok/s | 24 tok/s |
모델 크기 (MODEL SIZE)
MTP 버전:
| 모델 | 크기 |
|---|---|
| huytd/Qwen3.6-27B-pure-GGUF Q4_K_M MTP | 15.4 GB |
| ... |
Non MTP 버전:
| 모델 | 크기 |
|---|---|
| huytd/Qwen3.6-27B-pure-GGUF Q4_K_M | 15.1 GB |
| ... |
퍼플렉서티 차이 (PERPLEXITY DIFFERENCE)
현재 KLD 벤치마크를 실행할 수 있는 하드웨어가 없어서 여기에는 PPL (Perplexity) 차이만 보여드립니다. 하지만 이를 통해 품질과 크기 감소 사이의 트레이드오프 (trade-offs)를 파악하는 데 도움이 될 것입니다.
| Variant | PPL | Delta |
|---|---|---|
| BF16 MTP | 7.5992 +/- 0.02890 | base |
| ... | Unsloth's Q4_K_M non-MTP |
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기