업데이트: ik_llama.cpp를 위한 Qwen-27B-IQ4_KS 및 Qwen-27B-IQ_KS_KT, 특히 16GB VRAM을 탑재한

요약

16GB VRAM 환경에서 Qwen-27B 모델을 효율적으로 구동하기 위한 새로운 GGUF 양자화 모델들을 소개합니다. 논리력 향상에 초점을 맞춘 IQ4_KS 방식과 실험적인 Trellis 알고리즘을 적용한 IQ4_KS_KT 모델의 성능을 비교 분석했습니다.

핵심 포인트

16GB VRAM 및 Nvidia GPU 최적화된 Qwen-27B 양자화 모델 출시
IQ4_KS 모델은 일반 지식 대신 논리력을 높여 코딩 작업에 유리하도록 설계
실험적인 Trellis(iq4_kt) 알고리즘을 가우시안 분포 텐서에 적용하여 성능 유지 확인
PPL 테스트 결과 두 모델 모두 유사한 성능을 보이며 효율적인 구동 가능

16GB VRAM 최적화 지속: 새로운 Qwen3.6-27B GGUF 양자화 모델 (실험적 Trellis/iq4_kt & MTP)

안녕하세요 여러분,

저는 다음 게시물에서 진행하던 16GB VRAM 및 Nvidia GPU를 위한 최적화 작업을 계속하고 있습니다:
https://www.reddit.com/r/LocalLLaMA/comments/1tkmgwj/qwen27biq4_ks_for_ik_llamacpp_especially_for/
그 결과, ik_llama.cpp를 위한 두 가지 새로운 양자화 (quantization) 모델을 방금 업로드했습니다.

Qwen3.6-27B-i1-IQ4_KS-GGUF 저장소에 새로운 양자화 모델인 Qwen3.6-27B.i1-IQ4_KS-attn_qkv-IQ4_KS.gguf를 추가했습니다. 이론적으로 이는 더 논리적인 레이아웃 (layout)을 특징으로 합니다 (저도 계속 배우는 중입니다). 이전 모델인 Qwen3.6-27B.i1-IQ4_KS-attn_qkv-IQ4_KSS.gguf와 정확히 동일한 크기를 유지하지만, 모델의 일반적인 지식을 희생하는 대신 논리력을 높이도록 미세 조정했습니다. 이는 코딩 작업에 도움이 될 것입니다.

PPL (Perplexity) 테스트 결과:
./llama-perplexity -m Qwen3.6-27B.i1-IQ4_KS-attn_qkv-IQ4_KS.gguf -f /mnt/Samsung4TB/models/pg19.txt -c 65536 --chunks 32 -ngl 99 -khad -vhad -ctk q4_0 -ctv q4_0 -fa 1 -b 512 -ub 256 [1]6.6926,[2]7.0049,[3]7.2043,[4]7.3382,[5]7.4861,[6]7.3838,[7]7.4411,[8]7.4459,[9]7.4857,[10]7.5303,[11]7.5779,[12]7.4131, 최종 추정치: n_ctx=65536에 대해 12개 청크(chunks) 이상의 PPL = 7.4131 +/- 0.02774

두 번째 모델인 Qwen3.6-27B-i1-IQ4_KS_KT-GGUF는 완전한 실험입니다. 저는 매우 효율적인 Trellis 알고리즘 양자화 (iq4_kt)를 어디에 성공적으로 활용할 수 있을지 궁금했습니다. 보통 이런 유형의 양자화는 모델의 논리력을 완전히 망가뜨리기 때문에, 저는 가우시안 분포 (Gaussian distributions)에 가까운 텐서 (tensors)에만 이를 적용했습니다. 결과는 꽤 흥미롭게 나왔습니다.

PPL 테스트 결과:
./llama-perplexity -m Qwen3.6-27B.i1-IQ4_KS_KT-attn_qkv-IQ4_KS.gguf -f /mnt/Samsung4TB/models/pg19.txt -c 65536 --chunks 32 -ngl 99 -khad -vhad -ctk q4_0 -ctv q4_0 -fa 1 -b 512 -ub 256 [1]6.6915,[2]7.0030,[3]7.1945,[4]7.3323,[5]7.4815,[6]7.3783,[7]7.4367,[8]7.4409,[9]7.4804,[10]7.5251,[11]7.5728,[12]7.4091, 최종 추정치: n_ctx=65536에 대해 12개 청크(chunks)를 거친 PPL = 7.4091 +/- 0.02777

결과에서 볼 수 있듯이, 두 모델 모두 매우 유사한 PPL (perplexity, 당혹도)을 보여줍니다. 안타깝게도 현재 KLD 테스트를 실행할 수 있는 수단이 없으므로, 혹시 관련 환경을 갖추신 분이 있다면 테스트를 진행해 주시면 정말 감사하겠습니다.
최근 트렌드를 따라가기 위해 MTP (Multi-Token Prediction, 다중 토큰 예측)도 포함해 보았으나, 컨텍스트 (context)를 위한 여유 공간이 많지는 않습니다. 두 가지 버전을 만들었습니다: i1_MTP는 iq4_ks 양자화 (quantization)를 나타내며, 순수 MTP는 q8_0입니다.
제출자: /u/Pablo_the_brave
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

업데이트: ik_llama.cpp를 위한 Qwen-27B-IQ4_KS 및 Qwen-27B-IQ_KS_KT, 특히 16GB VRAM을 탑재한

요약

핵심 포인트

댓글