본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 05. 18:21

Qwen3.6-27B IQ4_XS Bloat: Reverting llama.cpp commit saves 16GB VRAM (14.7GB vs

요약

본 기사는 Qwen3.6-27B 모델의 VRAM 최적화 문제를 다루며, 특정 `llama.cpp` 커밋이 모델 크기를 불필요하게 증가시켜 16GB VRAM 환경에서 사용성을 떨어뜨린 사례를 지적합니다. 작성자는 해당 커밋을 되돌리고(reverting) 기존의 고효율 양자화 방식인 IQ4_XS를 복원하여, Qwen3.6-27B 모델을 14.7GB로 최적화했습니다. 이 커스텀 모델은 16GB VRAM 환경에서 높은 성능과 함께 최대 110k 컨텍스트 길이까지 처리할 수 있음을 입증했습니다.

핵심 포인트

  • Qwen3.6-27B의 기본 배포 버전이 특정 `llama.cpp` 커밋으로 인해 크기가 증가(14.7GB $\rightarrow$ 15.1GB)하여 16GB VRAM 환경에서 사용성이 저하됨.
  • 문제의 원인은 `attn_qkv` 레이어 양자화가 최소 Q5_K로 하드코딩된 특정 `llama.cpp` 커밋에 기인함.
  • 작성자는 해당 문제를 해결하기 위해 커스텀 모델을 제작하여, IQ4_XS와 같은 고효율 양자화를 복원하고 16GB VRAM에서 14.7GB 크기를 유지하는 데 성공함.
  • 최적화된 모델은 Perplexity 테스트를 통해 16GB VRAM 내에서 최대 110k 컨텍스트 길이까지 안정적으로 처리할 수 있음을 보여줌.

Qwen3.6-27B IQ4_XS Bloat: Reverting llama.cpp commit saves 16GB VRAM (14.7GB vs 15.1GB) + KVCache Tests

Edit: After some thought, I've submitted this issue: https://github.com/ggml-org/llama.cpp/issues/22544
Edit: The described in this topic bug is fixed now: https://github.com/ggml-org/llama.cpp/pull/22572

With the release of Qwen3.6-27B, I noticed that compared to the excellent IQ4_XS quantization (14.7GB) by mradermacher for the 3.5 version (Qwen3.5-27B-i1-GGUF), the current images have bloated. The Qwen3.6 equivalent (Qwen3.6-27B-i1-GGUF) now weighs 15.1GB.

The IQ4_XS is a true "unicorn" – in all benchmarks, it offers an incredible ratio of size to model quality. In practice, it is the only viable option for running a 27B model on 16GB VRAM with a decent context. Anything lower than this is unsuitable for coding tasks. Unfortunately, the increase from 14.7GB to 15.1GB breaks the experience for 16GB cards.

The Cause & The Fix The culprit is a specific llama.cpp commit (1dab5f5a44): GitHub link. Its effect is hardcoding attn_qkv layer quantizations to a minimum of Q5_K.

To fix this, I modified the source code and replicated the original IQ4_XS layer quantization 1:1. I used the imatrix from mradermacher (Qwen3.6-27B-i1-GGUF) and performed comparative benchmarks. I observed no significant drop in model quality. In my opinion, the mentioned commit is a pure regression for the IQ4_XS format.

My custom 14.7GB model with reverted layers is available here: 👉 cHunter789/Qwen3.6-27B-i1-IQ4_XS-GGUF

Perplexity Benchmarks: 65k Context (-c 65536)

Testing parameters: pg19.txt (downloaded from Project Gutenberg here), --chunks 32",\

KV Cache Observations: 이 테스트들은 Qwen3.6-27B 모델에 대해 turboquant_plus 의 결론이 적용되지 않는다는 것을 보여줍니다. K-cache 를 증가시키는 것은 V-cache 를 희생하는 것이 큰 이점을 주지 않습니다. 사실, 이 모델에서는 V-cache 가 동등하게 중요해 보입니다.

Perplexity Benchmarks: 110k Context (-c 110000)

위 내용을 바탕으로 대칭형 Turbo3 양자화를 사용하기로 결정했습니다. 커스텀 14.7GB 모델과 함께 이 최적화는 16GB VRAM 내에서 110k 컨텍스트를 완전히 처리할 수 있게 했습니다. (이 테스트는 꽤 오래 걸렸으므로 데이터를 감사해 주시길 바랍니다!)

IDModel SizeModel File / Version-ctk-ctvFinal PPL
714.7GB...-IQ4_XS-attn_qkv-IQ4_XS.gguf (Custom)q8_0q8_07.5205 ± 0.0285
...

110k 컨텍스트를 위한 명령어:
7. ./llama-perplexity -m Qwen3.6-27B.i1-IQ4_XS-attn_qkv-IQ4_XS.gguf -f pg19.txt -c 110000 --chunks 32 -ngl -1 -ctk q8_0 -ctv q8_0 -fa 1 -b 512 -ub 64
8. ./llama-perplexity -m Qwen3.6-27B.i1-IQ4_XS-attn_qkv-IQ4_XS.gguf -f pg19.txt -c 110000 --chunks 32 -ngl 99 -ctk turbo3 -ctv turbo3 -fa 1 -b 512 -ub 256
9. ./llama-perplexity -m Qwen3.6-27B.i1-IQ4_XS.gguf -f pg19.txt -c 110000 --chunks 32 -ngl -1 -ctk turbo3 -ctv turbo3 -fa 1 -b 512 -ub 256

The Q3 Debate

Q3 모델은 괜찮다는 이론들이 떠돌고 있습니다. 여러분이 판단해 보십시오:

IDModel SizeModel File / Version-ctk-ctvFinal PPL
10Q3_K_LQwen3.6-27B.i1-Q3_K_L.ggufq8_0q8_07.6538 ± 0.0292
11Q3_K_LQwen3.6-27B.i1-Q3_K_L.ggufturbo3turbo37.7085 ± 0.0295

Q3 테스트를 위한 명령어:
10. ./llama-perplexity -m Qwen3.6-27B.i1-Q3_K_L.gguf -f pg19.txt -c 110000 --chunks 32 -ngl -1 -ctk q8_0 -ctv q8_0 -fa 1 -b 512 -ub 128
11. ./llama-perplexity -m Qwen3.6-27B.i1-Q3_K_L.gguf -f pg19.txt -c 110000 --chunks 32 -ngl 99 -ctk turbo3 -ctv turbo3 -fa 1 -b 512 -ub 256

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0