8GB VRAM 및 32GB RAM에서 Qwen3.6 35B A3B 실행 (~190k 컨텍스트)
요약
본 기사는 제한된 VRAM(8GB)과 RAM(32GB) 환경에서 Qwen3.6 35B와 같은 대규모 언어 모델을 높은 컨텍스트 길이(~190k)로 구동하는 최적화 방법을 공유합니다. 작성자는 Linux 환경, llama.cpp의 TurboQuant 포크 버전 사용, 그리고 특정 파라미터 조정(예: `--n-gpu-layers`, `--ctx-size`)을 통해 안정성과 속도를 극대화한 경험을 제시했습니다. 특히 Q5 양자화와 DDR5 RAM 같은 하드웨어 요소가 장문 컨텍스트 추론 성능에 결정적인 영향을 미친다고 강조합니다.
핵심 포인트
- 8GB VRAM과 32GB RAM 환경에서도 Qwen3.6 35B를 190k 컨텍스트로 구동하는 것이 가능하며, 최적화된 설정으로 높은 속도를 달성할 수 있습니다.
- llama.cpp의 TurboQuant 포크 버전 사용 및 `--no-mmap` + `--mlock` 같은 특정 플래그 조합이 성능 안정화에 도움이 됩니다.
- 장문 컨텍스트 추론 시 Q5 양자화가 Q4보다 눈에 띄게 우수한 성능을 보이며, DDR5와 같은 높은 RAM 대역폭이 중요합니다.
- 최적의 속도와 안정성을 위해 `--ctx-size`, `--n-gpu-layers`, `--n-cpu-moe` 등의 파라미터를 환경에 맞게 세밀하게 조정하는 것이 필수적입니다.
고성능의 높은 속도와 약 190k 컨텍스트를 원하시는 분이 있다면, 이 설정이 저에게 엄청나게 잘 작동하고 있습니다.
저는 Tailscale을 통해 노트북을 서버로 사용하고 있습니다. 여기에 Linux를 설치하여 다음을 실행했습니다:
- Qwen3.6 35B A3B
- RTX 4060 8GB VRAM
- 32GB DDR5 5600MHz RAM
- Q5 양자화(quant) 모델
현재 테스트한 모델:
- exttt{mudler/Qwen3.6-35B-A3B-APEX-GGUF}
- ~40 tok/sec → 37 tok/sec
- exttt{hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF}
- ~43 tok/sec → 37 tok/sec
다음과 같이 조정하여 속도를 약 51 tok/sec까지 높일 수 있습니다:
- exttt{--ctx-size 192640}
- exttt{--n-gpu-layers 430}
- exttt{--n-cpu-moe 35}
그리고 안정성과 메모리 사용량에 따라 이 값들을 약간 높이거나 낮추면서 조정합니다.
현재 제 설정은 다음과 같습니다:
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'
이 포크(fork) 버전의 llama.cpp를 TurboQuant 지원과 함께 사용하고 있습니다:
https://github.com/TheTom/turboquant_plus#build-llamacpp-with-turboquant
몇 가지 솔직한 의견을 말씀드립니다:
-
Q4는 이 모델들에서 장문 컨텍스트 추론(long-context reasoning)에 비해 Q5가 눈에 띄게 성능이 떨어집니다.
-
exttt{--no-mmap} + exttt{--mlock}은 저에게 이상한 속도 저하 현상을 줄이는 데 도움이 되었습니다.
-
TurboQuant KV 캐시(KV cache)는 높은 컨텍스트 크기에서 엄청난 차이를 만듭니다.
-
이 설정에서는 Linux가 Windows보다 훨씬 더 나은 성능을 보여줍니다.
-
RAM 대역폭(RAM bandwidth)이 좋지 않다면 이러한 속도를 기대해서는 안 됩니다. DDR5가 여기서 중요합니다.
만약 다음 항목에 대한 최적화 방법을 아시는 분이 있다면:
-
더 나은 장문 컨텍스트 안정성,
-
더 높은 토큰 처리량(token throughput),
-
또는 더 스마트한 exttt{n-cpu-moe} 튜닝 방법,
테스트해 보고 싶습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기