Reddit요약2026. 05. 26. 15:11

Qwen3.6:27B 16GB VRAM 5080: MTP 양자화(Quant), 속도 및 설정

요약

16GB VRAM 환경에서 Qwen3.6:27B 모델을 최적화하여 실행하는 방법과 성능을 분석합니다. MTP 양자화 및 레이어 오프로딩 설정을 통해 음성 비서 서비스에 적합한 추론 속도를 확보하는 과정을 다룹니다.

핵심 포인트

16GB VRAM에서 Qwen3.6:27B 모델 구동을 위한 Q3_K_S 양자화 활용
MTP(Multi-Token Prediction) 및 Draft 모델을 통한 추론 속도 향상
비전 모델을 CPU로 오프로드하여 GPU 메모리 효율 최적화
Home Assistant 음성 비서 목적에 맞는 목표 성능(tg/pp) 설정

16GB VRAM에서 Qwen3.6:27B를 실행 중인 분들은 어떤 양자화(quantization)를 선택하셨나요?

HA(Home Assistant) 음성 비서라는 저의 주요 목적을 고려했을 때, 제가 찾은 이상적인 목표치는 >50 tg 및 >800 pp입니다. Qwen3.5:9B는 정말 빠르게 작동하지만, 저는 더 높은 지능을 실험해보고 있습니다. 비전 모델은 사용 빈도가 낮기 때문에 CPU로 오프로드(Offloaded)했습니다.

현재 Qwen3.6-27B-Q3_K_S.gguf를 사용 중이며, 64개의 레이어를 GPU에 배치했을 때의 속도는 다음과 같습니다:

prompt eval time =     462.66 ms /   507 tokens (    0.91 ms per token,  1095.83 tokens per second)
       eval time =   18710.17 ms /   884 tokens (   21.17 ms per token,    47.25 tokens per second)
      total time =   19172.84 ms /  1391 tokens
draft acceptance rate = 0.59677 (  481 accepted /   806 generated)

prompt eval time =    6001.34 ms /  8561 tokens (    0.70 ms per token,  1426.51 tokens per second)
       eval time =    2404.46 ms /   147 tokens (   16.36 ms per token,    61.14 tokens per second)
      total time =    8405.80 ms /  8708 tokens
draft acceptance rate = 0.80357 (   90 accepted /   112 generated)

설정(Config):

      -m /models/Qwen3.6-27B/Qwen3.6-27B-Q3_K_S.gguf
      --mmproj /models/Qwen3.6-27B/mmproj-BF16.gguf
      --no-mmproj-offload
      --host 0.0.0.0
      --port 8080
      --jinja
      -fa on
      --temp 0.6
      --top-p 0.95
      --top-k 20
      --min_p 0.0
      --presence-penalty 1.5
      --repeat-penalty 1.0
      --cache-ram 0
      --fit on
      -np 2
      --fit-ctx 32000
      --cache-type-k q8_0
      --cache-type-v q8_0
      --cache-type-k-draft q8_0
      --cache-type-v-draft q8_0
      --log-verbosity 4
      --chat-template-kwargs '{"preserve_thinking": true}'
      --spec-type draft-mtp
      --spec-draft-n-max 2

AI 자동 생성 콘텐츠

원문 바로가기

Qwen3.6:27B 16GB VRAM 5080: MTP 양자화(Quant), 속도 및 설정

요약

핵심 포인트

댓글