본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 24. 03:48

Qwen3.6 27B 순수 양자화: 16 GB VRAM에서 40 tok/s 달성

요약

16GB VRAM 환경에서 Qwen3.6 27B 모델을 효율적으로 구동하기 위한 순수 양자화(pure quantization) 실험 결과입니다. MTP 버전을 통해 토큰 생성 속도 40 tok/s를 달성하며 하드웨어 제약 내 최적화 방안을 제시합니다.

핵심 포인트

  • 16GB VRAM에서 Qwen3.6 27B 모델 구동 가능
  • MTP 버전 사용 시 최대 40 tok/s의 토큰 생성 속도 달성
  • MTP와 Non-MTP 버전 간의 속도 및 처리 방식 차이 확인
  • 양자화 모델의 크기와 퍼플렉서티(PPL) 간의 트레이드오프 분석

여러분 안녕하세요!

제 RTX 5060 Ti 16 GB에 Qwen3.6 27B Q4_K_M 모델을 맞추기 위해 진행한 실험 결과를 공유하고자 합니다. u/Due-Project-7507의 Ununnilium/Qwen3.6-27B-IQ4_XS-pure-GGUF 작업을 참고했습니다.

동일한 pure 양자화 (quantization) 방법을 사용하여, 16 GB VRAM에 완전히 들어가는 Q4_K_M GGUF 파일들을 생성할 수 있었습니다.

모델 URL: https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF

두 가지 버전이 있습니다: Q4_K_M MTP (15.4 GB)Q4_K_M non-MTP (15.1 GB).

GGUF를 다운로드하여 최신 llama.cpp 버전으로 다음과 같이 실행할 수 있습니다:

llama-server -m Qwen3.6-27B-MTP-Q4_K_M-pure.gguf -fitt 128 -c 65536 -fa on -np 1 -ctk q5_0 -ctv q5_0 -ctxcp 18 --no-mmap --mlock --no-warmup --chat-template-kwargs '{"preserve_thinking": true}' --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 -ub 256 -b 1024 -ngl 99 --spec-type draft-mtp --spec-draft-n-max 2

토큰 속도 (TOKEN SPEED)

MTP 버전의 경우, 토큰 생성 (tg) 속도는 40 tok/s를 기록했지만 프롬프트 처리 (pp)는 더 느렸습니다. 반면 non-MTP 버전은 pp와 tg 모두 24 tok/s로 더 높았습니다.

버전프롬프트 처리 (Prompt Processing)토큰 생성 (Token Generation)
MTP195 tok/s40 tok/s
Non MTP715 tok/s24 tok/s

모델 크기 (MODEL SIZE)

MTP 버전:

모델크기
huytd/Qwen3.6-27B-pure-GGUF Q4_K_M MTP15.4 GB
...

Non MTP 버전:

모델크기
huytd/Qwen3.6-27B-pure-GGUF Q4_K_M15.1 GB
...

퍼플렉서티 차이 (PERPLEXITY DIFFERENCE)

현재 KLD 벤치마크를 실행할 수 있는 하드웨어가 없어서 여기에는 PPL (Perplexity) 차이만 보여드립니다. 하지만 이를 통해 품질과 크기 감소 사이의 트레이드오프 (trade-offs)를 파악하는 데 도움이 될 것입니다.

VariantPPLDelta
BF16 MTP7.5992 +/- 0.02890base
...Unsloth's Q4_K_M non-MTP

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0