본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 23. 13:05

16GB VRAM NVIDIA 사용자를 위한 ik_llama.cpp용 Qwen-27B-IQ4_KS

요약

16GB VRAM NVIDIA GPU 사용자를 위해 최적화된 Qwen-27B 모델의 새로운 KS 양자화 버전을 소개합니다. ik_llama.cpp 프로젝트를 활용하여 모델 크기를 14.1GB로 줄이면서도 높은 성능과 105k의 컨텍스트 윈도우를 확보했습니다.

핵심 포인트

  • 16GB VRAM 환경에 최적화된 14.1GB 크기의 Qwen-27B 모델
  • ikawrakow의 KS/KSS 양자화 방식을 사용하여 성능 유지
  • NVIDIA CUDA 및 CPU 전용으로 현재 AMD/Apple Silicon 미지원
  • Hadamard KV 캐시 활용 시 최대 105k 컨텍스트 윈도우 지원
  • 이전 IQ4_XS 버전 대비 속도 및 안정성 향상

안녕하세요 여러분,

16GB VRAM NVIDIA GPU를 염두에 두고 특별히 제작한 Qwen-27B 모델의 새로운 양자화 (Quantization) 버전을 소개합니다. 안타깝게도 아직 메인 업스트림 llama.cpp에서는 사용할 수 없는 양자화 방식을 사용했습니다. 바로 ikawrakow가 개발한 KS 및 KSS 양자화 방식입니다. 수많은 시도 끝에 14.1GB 크기의 모델을 만드는 데 성공했으며, 제 테스트 결과 이전의 14.7GB IQ4_XS 양자화 모델과 매우 유사한 성능을 보여주었습니다.

모델 링크: cHunter789/Qwen3.6-27B-i1-IQ4_KS-GGUF

ik_llama.cpp 프로젝트: ikawrakow/ik_llama.cpp

불행히도, 이 모델을 실행하는 데 필요한 ik_llama.cpp 프로젝트는 NVIDIA CUDA 및 CPU 전용입니다. 현재로서는 AMD나 Apple Silicon (Metal)에서 실행할 방법이 없습니다 :/

ik_llama.cppQ4_0 Hadamard KV 캐시 (KV cache)를 사용하여 이 모델을 사용하면 **105k 컨텍스트 윈도우 (Context window)**를 확보할 수 있습니다.

벤치마크 결과 및 실제 사용 소감

이 모델은 며칠 동안 일상적인 프로덕션 워크플로우에서 집중적으로 테스트되었습니다. 이전 버전보다 훨씬 빠르고 (1.5x-1.75x) 안정적으로 작동하며, "빈 출력 (blank outputs)" 문제를 완전히 해결했을 뿐만 아니라 검색-치환 (search-replace) 기능도 완벽하게 작동합니다.

  • Qwen 벤치마크: qwen3-6-27b-benchmark.vercel.app의 성능 평가를 성공적으로 통과했습니다.
  • Needle In A Haystack: 전체 100k 컨텍스트 윈도우에 걸쳐 만족스러운 결과로 성공적으로 평가되었습니다.
  • 비교: 직접적인 테스트에서 이 모델은 저의 이전 변체인 Qwen3.6-27B-i1-IQ4_XS-GGUF보다 약간 더 나은 성능을 보여줍니다.

퍼플렉서티 (Perplexity, PPL) 테스트

퍼플렉서티 평가는 주요 타겟 사용 사례인 KV 캐시 양자화 설정 (q4_0)에만 집중하여 수행되었습니다:

wget [https://www.gutenberg.org/files/2600/2600-0.txt](https://www.gutenberg.org/files/2600/2600-0.txt) -O pg19.txt

./llama-perplexity -m Qwen3.6-27B.i1-IQ4_KS-attn_qkv-IQ4_KSS.gguf -f pg19.txt -c 65536 --chunks 32 -ngl 99 -khad -vhad -ctk q4_0 -ctv q4_0 -fa 1 -b 512 -ub 512

테스트 로그 출력 (Test Log Output):

perplexity: calculating perplexity over 12 chunks, n_ctx=65536, batch_size=512, n_seq=1
perplexity: 71.10 seconds per pass - ETA 14.22 minutes
[1]6.6897,[2]7.0032,[3]7.1989,[4]7.3327,[5]7.4816,[6]7.3770,[7]7.4325,[8]7.4378,[9]7.4754,[10]7.5192,[11]7.5669,[12]7.4040,
...

참고: 현재 저는 KLD (Kullback–Leibler divergence, 쿨백-라이블러 발산) 테스트를 수행할 수 있는 기능이 없습니다.

서버 설정 예시 (Example Server Configuration)

참고를 위해, 제가 테스트 중에 사용한 서버 설정은 다음과 같습니다:

lama-server \
        -m "$MODEL_PATH" \
        -a Qwen3.6-27B \
...

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0