Qwen3.6:27B 16GB VRAM 5080: MTP 양자화(Quant), 속도 및 설정
요약
16GB VRAM 환경에서 Qwen3.6:27B 모델을 최적화하여 실행하는 방법과 성능을 분석합니다. MTP 양자화 및 레이어 오프로딩 설정을 통해 음성 비서 서비스에 적합한 추론 속도를 확보하는 과정을 다룹니다.
핵심 포인트
- 16GB VRAM에서 Qwen3.6:27B 모델 구동을 위한 Q3_K_S 양자화 활용
- MTP(Multi-Token Prediction) 및 Draft 모델을 통한 추론 속도 향상
- 비전 모델을 CPU로 오프로드하여 GPU 메모리 효율 최적화
- Home Assistant 음성 비서 목적에 맞는 목표 성능(tg/pp) 설정
16GB VRAM에서 Qwen3.6:27B를 실행 중인 분들은 어떤 양자화(quantization)를 선택하셨나요?
HA(Home Assistant) 음성 비서라는 저의 주요 목적을 고려했을 때, 제가 찾은 이상적인 목표치는 >50 tg 및 >800 pp입니다. Qwen3.5:9B는 정말 빠르게 작동하지만, 저는 더 높은 지능을 실험해보고 있습니다. 비전 모델은 사용 빈도가 낮기 때문에 CPU로 오프로드(Offloaded)했습니다.
현재 Qwen3.6-27B-Q3_K_S.gguf를 사용 중이며, 64개의 레이어를 GPU에 배치했을 때의 속도는 다음과 같습니다:
prompt eval time = 462.66 ms / 507 tokens ( 0.91 ms per token, 1095.83 tokens per second)
eval time = 18710.17 ms / 884 tokens ( 21.17 ms per token, 47.25 tokens per second)
total time = 19172.84 ms / 1391 tokens
draft acceptance rate = 0.59677 ( 481 accepted / 806 generated)
prompt eval time = 6001.34 ms / 8561 tokens ( 0.70 ms per token, 1426.51 tokens per second)
eval time = 2404.46 ms / 147 tokens ( 16.36 ms per token, 61.14 tokens per second)
total time = 8405.80 ms / 8708 tokens
draft acceptance rate = 0.80357 ( 90 accepted / 112 generated)
설정(Config):
-m /models/Qwen3.6-27B/Qwen3.6-27B-Q3_K_S.gguf
--mmproj /models/Qwen3.6-27B/mmproj-BF16.gguf
--no-mmproj-offload
--host 0.0.0.0
--port 8080
--jinja
-fa on
--temp 0.6
--top-p 0.95
--top-k 20
--min_p 0.0
--presence-penalty 1.5
--repeat-penalty 1.0
--cache-ram 0
--fit on
-np 2
--fit-ctx 32000
--cache-type-k q8_0
--cache-type-v q8_0
--cache-type-k-draft q8_0
--cache-type-v-draft q8_0
--log-verbosity 4
--chat-template-kwargs '{"preserve_thinking": true}'
--spec-type draft-mtp
--spec-draft-n-max 2
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기