본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 12. 09:22

8GB VRAM 및 32GB RAM에서 Qwen3.6 35B A3B 실행 (~190k 컨텍스트)

요약

본 기사는 제한된 VRAM(8GB)과 RAM(32GB) 환경에서 Qwen3.6 35B와 같은 대규모 언어 모델을 높은 컨텍스트 길이(~190k)로 구동하는 최적화 방법을 공유합니다. 작성자는 Linux 환경, llama.cpp의 TurboQuant 포크 버전 사용, 그리고 특정 파라미터 조정(예: `--n-gpu-layers`, `--ctx-size`)을 통해 안정성과 속도를 극대화한 경험을 제시했습니다. 특히 Q5 양자화와 DDR5 RAM 같은 하드웨어 요소가 장문 컨텍스트 추론 성능에 결정적인 영향을 미친다고 강조합니다.

핵심 포인트

  • 8GB VRAM과 32GB RAM 환경에서도 Qwen3.6 35B를 190k 컨텍스트로 구동하는 것이 가능하며, 최적화된 설정으로 높은 속도를 달성할 수 있습니다.
  • llama.cpp의 TurboQuant 포크 버전 사용 및 `--no-mmap` + `--mlock` 같은 특정 플래그 조합이 성능 안정화에 도움이 됩니다.
  • 장문 컨텍스트 추론 시 Q5 양자화가 Q4보다 눈에 띄게 우수한 성능을 보이며, DDR5와 같은 높은 RAM 대역폭이 중요합니다.
  • 최적의 속도와 안정성을 위해 `--ctx-size`, `--n-gpu-layers`, `--n-cpu-moe` 등의 파라미터를 환경에 맞게 세밀하게 조정하는 것이 필수적입니다.

고성능의 높은 속도와 약 190k 컨텍스트를 원하시는 분이 있다면, 이 설정이 저에게 엄청나게 잘 작동하고 있습니다.

저는 Tailscale을 통해 노트북을 서버로 사용하고 있습니다. 여기에 Linux를 설치하여 다음을 실행했습니다:

  • Qwen3.6 35B A3B
  • RTX 4060 8GB VRAM
  • 32GB DDR5 5600MHz RAM
  • Q5 양자화(quant) 모델

현재 테스트한 모델:

  • exttt{mudler/Qwen3.6-35B-A3B-APEX-GGUF}
  • ~40 tok/sec → 37 tok/sec
  • exttt{hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF}
  • ~43 tok/sec → 37 tok/sec

다음과 같이 조정하여 속도를 약 51 tok/sec까지 높일 수 있습니다:

  • exttt{--ctx-size 192640}
  • exttt{--n-gpu-layers 430}
  • exttt{--n-cpu-moe 35}

그리고 안정성과 메모리 사용량에 따라 이 값들을 약간 높이거나 낮추면서 조정합니다.

현재 제 설정은 다음과 같습니다:

--batch-size 2048 \

--parallel 1 \

--no-mmap \

--mlock \

--ubatch-size 512 \

--threads 6 \

--cont-batching \

--timeout 300 \

--temp 0.2 \

--top-p 0.95 \

--min-p 0.05 \

--top-k 20 \

--metrics \

--chat-template-kwargs '{"preserve_thinking": true}'

이 포크(fork) 버전의 llama.cpp를 TurboQuant 지원과 함께 사용하고 있습니다:

https://github.com/TheTom/turboquant_plus#build-llamacpp-with-turboquant

몇 가지 솔직한 의견을 말씀드립니다:

  • Q4는 이 모델들에서 장문 컨텍스트 추론(long-context reasoning)에 비해 Q5가 눈에 띄게 성능이 떨어집니다.

  • exttt{--no-mmap} + exttt{--mlock}은 저에게 이상한 속도 저하 현상을 줄이는 데 도움이 되었습니다.

  • TurboQuant KV 캐시(KV cache)는 높은 컨텍스트 크기에서 엄청난 차이를 만듭니다.

  • 이 설정에서는 Linux가 Windows보다 훨씬 더 나은 성능을 보여줍니다.

  • RAM 대역폭(RAM bandwidth)이 좋지 않다면 이러한 속도를 기대해서는 안 됩니다. DDR5가 여기서 중요합니다.

만약 다음 항목에 대한 최적화 방법을 아시는 분이 있다면:

  • 더 나은 장문 컨텍스트 안정성,

  • 더 높은 토큰 처리량(token throughput),

  • 또는 더 스마트한 exttt{n-cpu-moe} 튜닝 방법,

테스트해 보고 싶습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0