Qwen3.6 27B 순수 양자화: 16 GB VRAM에서 40 tok/s 달성

여러분 안녕하세요!

제 RTX 5060 Ti 16 GB에 Qwen3.6 27B Q4_K_M 모델을 맞추기 위해 진행한 실험 결과를 공유하고자 합니다. u/Due-Project-7507의 Ununnilium/Qwen3.6-27B-IQ4_XS-pure-GGUF 작업을 참고했습니다.

동일한 pure 양자화 (quantization) 방법을 사용하여, 16 GB VRAM에 완전히 들어가는 Q4_K_M GGUF 파일들을 생성할 수 있었습니다.

모델 URL: https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF

두 가지 버전이 있습니다: Q4_K_M MTP (15.4 GB) 및 Q4_K_M non-MTP (15.1 GB).

GGUF를 다운로드하여 최신 llama.cpp 버전으로 다음과 같이 실행할 수 있습니다:

llama-server -m Qwen3.6-27B-MTP-Q4_K_M-pure.gguf -fitt 128 -c 65536 -fa on -np 1 -ctk q5_0 -ctv q5_0 -ctxcp 18 --no-mmap --mlock --no-warmup --chat-template-kwargs '{"preserve_thinking": true}' --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 -ub 256 -b 1024 -ngl 99 --spec-type draft-mtp --spec-draft-n-max 2

토큰 속도 (TOKEN SPEED)

MTP 버전의 경우, 토큰 생성 (tg) 속도는 40 tok/s를 기록했지만 프롬프트 처리 (pp)는 더 느렸습니다. 반면 non-MTP 버전은 pp와 tg 모두 24 tok/s로 더 높았습니다.

버전	프롬프트 처리 (Prompt Processing)	토큰 생성 (Token Generation)
MTP	195 tok/s	40 tok/s
Non MTP	715 tok/s	24 tok/s

모델 크기 (MODEL SIZE)

MTP 버전:

모델	크기
huytd/Qwen3.6-27B-pure-GGUF Q4_K_M MTP	15.4 GB
...

Non MTP 버전:

모델	크기
huytd/Qwen3.6-27B-pure-GGUF Q4_K_M	15.1 GB
...

퍼플렉서티 차이 (PERPLEXITY DIFFERENCE)

현재 KLD 벤치마크를 실행할 수 있는 하드웨어가 없어서 여기에는 PPL (Perplexity) 차이만 보여드립니다. 하지만 이를 통해 품질과 크기 감소 사이의 트레이드오프 (trade-offs)를 파악하는 데 도움이 될 것입니다.

Variant	PPL	Delta
BF16 MTP	7.5992 +/- 0.02890	base
...		Unsloth's Q4_K_M non-MTP

Insights

Qwen3.6 27B 순수 양자화: 16 GB VRAM에서 40 tok/s 달성

요약

핵심 포인트

댓글

이번 주 스테이블코인 수익률 리더보드에 새로운 선두가 등장했습니다.

디지털 대출 마켓플레이스를 구축하며 개발자가 배울 수 있는 점

Claude Code (터미널)를 위한 커스텀 상태 표시줄(statusline) 제작 — 디자인 공유

어떤 AI 모델을 사용하는 것이 최선인지 묻는 것은 잘못된 질문입니다

디지털 대출 마켓플레이스를 구축하며 개발자가 배울 수 있는 점

Claude Code (터미널)를 위한 커스텀 상태 표시줄(statusline) 제작 — 디자인 공유

어떤 AI 모델을 사용하는 것이 최선인지 묻는 것은 잘못된 질문입니다