r/LocalLLaMA분석2026. 05. 12. 09:22

8GB VRAM 및 32GB RAM에서 Qwen3.6 35B A3B 실행 (~190k 컨텍스트)

요약

본 기사는 제한된 VRAM(8GB)과 RAM(32GB) 환경에서 Qwen3.6 35B와 같은 대규모 언어 모델을 높은 컨텍스트 길이(~190k)로 구동하는 최적화 방법을 공유합니다. 작성자는 Linux 환경, llama.cpp의 TurboQuant 포크 버전 사용, 그리고 특정 파라미터 조정(예: `--n-gpu-layers`, `--ctx-size`)을 통해 안정성과 속도를 극대화한 경험을 제시했습니다. 특히 Q5 양자화와 DDR5 RAM 같은 하드웨어 요소가 장문 컨텍스트 추론 성능에 결정적인 영향을 미친다고 강조합니다.

핵심 포인트

8GB VRAM과 32GB RAM 환경에서도 Qwen3.6 35B를 190k 컨텍스트로 구동하는 것이 가능하며, 최적화된 설정으로 높은 속도를 달성할 수 있습니다.
llama.cpp의 TurboQuant 포크 버전 사용 및 `--no-mmap` + `--mlock` 같은 특정 플래그 조합이 성능 안정화에 도움이 됩니다.
장문 컨텍스트 추론 시 Q5 양자화가 Q4보다 눈에 띄게 우수한 성능을 보이며, DDR5와 같은 높은 RAM 대역폭이 중요합니다.
최적의 속도와 안정성을 위해 `--ctx-size`, `--n-gpu-layers`, `--n-cpu-moe` 등의 파라미터를 환경에 맞게 세밀하게 조정하는 것이 필수적입니다.

고성능의 높은 속도와 약 190k 컨텍스트를 원하시는 분이 있다면, 이 설정이 저에게 엄청나게 잘 작동하고 있습니다.

저는 Tailscale을 통해 노트북을 서버로 사용하고 있습니다. 여기에 Linux를 설치하여 다음을 실행했습니다:

Qwen3.6 35B A3B
RTX 4060 8GB VRAM
32GB DDR5 5600MHz RAM
Q5 양자화(quant) 모델

현재 테스트한 모델:

exttt{mudler/Qwen3.6-35B-A3B-APEX-GGUF}
~40 tok/sec → 37 tok/sec
exttt{hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF}
~43 tok/sec → 37 tok/sec

다음과 같이 조정하여 속도를 약 51 tok/sec까지 높일 수 있습니다:

exttt{--ctx-size 192640}
exttt{--n-gpu-layers 430}
exttt{--n-cpu-moe 35}

그리고 안정성과 메모리 사용량에 따라 이 값들을 약간 높이거나 낮추면서 조정합니다.

현재 제 설정은 다음과 같습니다:

--batch-size 2048 \

--parallel 1 \

--no-mmap \

--mlock \

--ubatch-size 512 \

--threads 6 \

--cont-batching \

--timeout 300 \

--temp 0.2 \

--top-p 0.95 \

--min-p 0.05 \

--top-k 20 \

--metrics \

--chat-template-kwargs '{"preserve_thinking": true}'

이 포크(fork) 버전의 llama.cpp를 TurboQuant 지원과 함께 사용하고 있습니다:

https://github.com/TheTom/turboquant_plus#build-llamacpp-with-turboquant

몇 가지 솔직한 의견을 말씀드립니다:

Q4는 이 모델들에서 장문 컨텍스트 추론(long-context reasoning)에 비해 Q5가 눈에 띄게 성능이 떨어집니다.
exttt{--no-mmap} + exttt{--mlock}은 저에게 이상한 속도 저하 현상을 줄이는 데 도움이 되었습니다.
TurboQuant KV 캐시(KV cache)는 높은 컨텍스트 크기에서 엄청난 차이를 만듭니다.
이 설정에서는 Linux가 Windows보다 훨씬 더 나은 성능을 보여줍니다.
RAM 대역폭(RAM bandwidth)이 좋지 않다면 이러한 속도를 기대해서는 안 됩니다. DDR5가 여기서 중요합니다.

만약 다음 항목에 대한 최적화 방법을 아시는 분이 있다면:

더 나은 장문 컨텍스트 안정성,
더 높은 토큰 처리량(token throughput),
또는 더 스마트한 exttt{n-cpu-moe} 튜닝 방법,

테스트해 보고 싶습니다.

AI 자동 생성 콘텐츠

원문 바로가기

8GB VRAM 및 32GB RAM에서 Qwen3.6 35B A3B 실행 (~190k 컨텍스트)

요약

핵심 포인트

댓글