7900XTX 24GB VRAM, Qwen 3.6 27B 모델을 131k 컨텍스트와 Q6K+MTP로 구동 가능
요약
AMD Radeon 7900XTX GPU를 활용하여 Qwen 3.6 27B 모델을 131k 컨텍스트로 구동하는 최적화 방법을 소개합니다. iGPU를 통한 VRAM 확보와 KV 캐시 양자화 기술을 통해 성능과 메모리 효율을 극대화하는 가이드를 제공합니다.
핵심 포인트
- 모니터를 iGPU에 연결하여 dGPU의 VRAM을 100% 확보
- KV 캐시 양자화(q5_0/q4_0)를 통해 VRAM 사용량 약 12% 절감
- Qwen 3.6 27B 모델을 131k 컨텍스트에서 55~60t/s 속도로 실행 가능
- llama.cpp 및 OpenBLAS 컴파일 옵션 최적화 적용
OS: CachyOS
설정 방법:
모니터를 iGPU(내장 그래픽)에 직접 연결하세요. 이렇게 하면 Linux 부팅 시 dGPU(외장 그래픽)의 VRAM을 100% 자유롭게 사용할 수 있습니다. 기본적으로 dGPU를 사용하면 약 700MB~1.2GB의 컨텍스트 공간을 소모하기 때문입니다. 이 방식을 사용하더라도 평소처럼 게임을 정상적으로 즐길 수 있습니다.
KV 캐시(kvcache)를 q5_0/q4_0로 설정하세요 (반드시 CUDA_ALL_QUANTS 옵션으로 컴파일해야 합니다).
네, Q5_0/Q4_0는 VRAM 사용량을 12% 줄여주는 대신 Q8보다 정밀도가 1.6% 정도 낮습니다. 이는 다음 링크에서 증명되었습니다: (Qwen은 KV 캐시 처리를 놀라울 정도로 잘 수행합니다).
https://anbeeld.com/articles/kv-cache-quantization-benchmarks-for-long-context
이제 저는 Qwen 3.6 27B Unsloth Q6K 모델(약 22GB~)을 131k 컨텍스트에서 55~60t/s의 속도로 실행할 수 있습니다.
컴파일 시 다음 인자(arguments)를 추가하세요 (VRAM 사용량을 줄이는 데 도움이 되었다는 한 사용자의 조언을 바탕으로 가져온 BLAS 변경 사항입니다...):
-DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS -DGGML_CUDA_FA_ALL_QUANTS=true
그 후 llama.cpp 인자를 다음과 같이 전달하면 됩니다:
-ctv q5_0 -ctk q4_0 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --presence-penalty 0.0 --repeat-penalty 1.0 -c 131000 --ninja --mlock --parallel 1 --no-mmproj
제출자: /u/soyalemujica
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기