16GB VRAM NVIDIA 사용자를 위한 ik_llama.cpp용 Qwen-27B-IQ4_KS

안녕하세요 여러분,

16GB VRAM NVIDIA GPU를 염두에 두고 특별히 제작한 Qwen-27B 모델의 새로운 양자화 (Quantization) 버전을 소개합니다. 안타깝게도 아직 메인 업스트림 llama.cpp에서는 사용할 수 없는 양자화 방식을 사용했습니다. 바로 ikawrakow가 개발한 KS 및 KSS 양자화 방식입니다. 수많은 시도 끝에 14.1GB 크기의 모델을 만드는 데 성공했으며, 제 테스트 결과 이전의 14.7GB IQ4_XS 양자화 모델과 매우 유사한 성능을 보여주었습니다.

모델 링크: cHunter789/Qwen3.6-27B-i1-IQ4_KS-GGUF

ik_llama.cpp 프로젝트: ikawrakow/ik_llama.cpp

불행히도, 이 모델을 실행하는 데 필요한 ik_llama.cpp 프로젝트는 NVIDIA CUDA 및 CPU 전용입니다. 현재로서는 AMD나 Apple Silicon (Metal)에서 실행할 방법이 없습니다 :/

ik_llama.cpp와 Q4_0 Hadamard KV 캐시 (KV cache)를 사용하여 이 모델을 사용하면 **105k 컨텍스트 윈도우 (Context window)**를 확보할 수 있습니다.

벤치마크 결과 및 실제 사용 소감

이 모델은 며칠 동안 일상적인 프로덕션 워크플로우에서 집중적으로 테스트되었습니다. 이전 버전보다 훨씬 빠르고 (1.5x-1.75x) 안정적으로 작동하며, "빈 출력 (blank outputs)" 문제를 완전히 해결했을 뿐만 아니라 검색-치환 (search-replace) 기능도 완벽하게 작동합니다.

Qwen 벤치마크: qwen3-6-27b-benchmark.vercel.app의 성능 평가를 성공적으로 통과했습니다.
Needle In A Haystack: 전체 100k 컨텍스트 윈도우에 걸쳐 만족스러운 결과로 성공적으로 평가되었습니다.
비교: 직접적인 테스트에서 이 모델은 저의 이전 변체인 Qwen3.6-27B-i1-IQ4_XS-GGUF보다 약간 더 나은 성능을 보여줍니다.

퍼플렉서티 (Perplexity, PPL) 테스트

퍼플렉서티 평가는 주요 타겟 사용 사례인 KV 캐시 양자화 설정 (q4_0)에만 집중하여 수행되었습니다:

wget [https://www.gutenberg.org/files/2600/2600-0.txt](https://www.gutenberg.org/files/2600/2600-0.txt) -O pg19.txt

./llama-perplexity -m Qwen3.6-27B.i1-IQ4_KS-attn_qkv-IQ4_KSS.gguf -f pg19.txt -c 65536 --chunks 32 -ngl 99 -khad -vhad -ctk q4_0 -ctv q4_0 -fa 1 -b 512 -ub 512

테스트 로그 출력 (Test Log Output):

perplexity: calculating perplexity over 12 chunks, n_ctx=65536, batch_size=512, n_seq=1
perplexity: 71.10 seconds per pass - ETA 14.22 minutes
[1]6.6897,[2]7.0032,[3]7.1989,[4]7.3327,[5]7.4816,[6]7.3770,[7]7.4325,[8]7.4378,[9]7.4754,[10]7.5192,[11]7.5669,[12]7.4040,
...

참고: 현재 저는 KLD (Kullback–Leibler divergence, 쿨백-라이블러 발산) 테스트를 수행할 수 있는 기능이 없습니다.

서버 설정 예시 (Example Server Configuration)

참고를 위해, 제가 테스트 중에 사용한 서버 설정은 다음과 같습니다:

lama-server \
        -m "$MODEL_PATH" \
        -a Qwen3.6-27B \
...

Insights

16GB VRAM NVIDIA 사용자를 위한 ik_llama.cpp용 Qwen-27B-IQ4_KS

요약

핵심 포인트

벤치마크 결과 및 실제 사용 소감

퍼플렉서티 (Perplexity, PPL) 테스트

서버 설정 예시 (Example Server Configuration)

댓글

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

Dover, 2분기 수주 16% 성장 및 열교환기 용량 12개월 내 두 배 확장에 따라 연간 조정 EPS 가이던스 상향

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

Dover, 2분기 수주 16% 성장 및 열교환기 용량 12개월 내 두 배 확장에 따라 연간 조정 EPS 가이던스 상향