VRAM 제한 환경에서도 고압축 양자화 모델이 더 빠를 수 있다
요약
3070 8GB GPU 환경에서 Qwen3.6-35B-A3B 모델을 실행한 경험 공유입니다. 직관적으로 생각하기엔 작은 압축(Q4_XS)을 써야 할 것 같지만, 실제로는 더 큰 양자화(Q4_K_XL, Q5_K_S)를 사용하면 오히려 속도가 빨라질 수 있습니다. MoE 구조의 모델은 메모리 대역폭과 연산 효율이 중요하므로, 기대치보다 높은 압축률을 적용해 성능을 테스트해보는 것이 좋습니다.
핵심 포인트
- 3070 8GB + 64GB DDR4 환경에서 Qwen3.6-35B-A3B-UD-IQ4_XS(~18GB) 는 최적화 시 25~30 토큰/초 속도
- 더 큰 양자화를 사용한 Q4_K_XL(~23GB) 모델이 128k 컨텍스트에서 32 토큰/초로 더 빠른 성능을 보임
- 품질과 속도의 균형을 위해 Q5_K_S 를 사용하면 약 30 토큰/초를 유지하며 128k 컨텍스트에서도 안정적
- MoE 모델의 경우 예상보다 큰 양자화 (bigger quants) 를 시도하는 것이 성능 향상에 도움이 될 수 있음
Qwen3.6-35B-A3B - even in VRAM limited scenarios it can be better to use bigger quants than you'd expect!
많은 경험 많은 로컬 LLM 사용자들에게는 이 문제가 너무 명확해 보일지 모르지만, 저에게는 그렇지 않았습니다.
저는 3070 8GB + 64GB DDR4 구성을 사용하고 있습니다. 꽤 가벼운 세팅이라 가장 작은 Q4 unsloth 모델인 Qwen3.6-35B-A3B-UD-IQ4_XS.gguf (18GB) 를 선택했습니다. 이 모델은 작동하는데, llama.cpp 에서 일부 최적화를 통해 32k 컨텍스트 윈도우에서 약 2530 토큰/초의 속도를 얻었습니다.
다만 생각 중 (thinking) 에 루프가 반복되는 문제가 발생했으므로 더 큰 Q4 모델인 Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf (~23GB) 를 시도해 보았습니다. 놀랍게도 이 모델이 훨씬 빠르다는 것을 발견했습니다. 128k 컨텍스트 윈도우를 사용할 때 약 32 토큰/초의 속도를 기록하고 있습니다.
결국 품질과 속도의 균형을 위해 Q5_K_S 를 사용하게 되었습니다. 약 30 토큰/초의 속도를 유지하며, 저는 128k 컨텍스트 윈도우를 사용하고 있습니다. 속도는 긴 컨텍스트에서 떨어지기는 하지만, 50k 컨텍스트에서도 여전히 25 토큰/초 이상입니다! (더 높은 컨텍스트는 아직 테스트하지 않았습니다.)
결론적으로 - 이 종류의 MoE 모델의 경우, 기대할 수 있는 것보다 더 큰 양자화 (bigger quants) 를 실험해 보는 것이 좋습니다!
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기