Reddit요약2026. 04. 27. 08:36

VRAM 제한 환경에서도 고압축 양자화 모델이 더 빠를 수 있다

요약

3070 8GB GPU 환경에서 Qwen3.6-35B-A3B 모델을 실행한 경험 공유입니다. 직관적으로 생각하기엔 작은 압축(Q4_XS)을 써야 할 것 같지만, 실제로는 더 큰 양자화(Q4_K_XL, Q5_K_S)를 사용하면 오히려 속도가 빨라질 수 있습니다. MoE 구조의 모델은 메모리 대역폭과 연산 효율이 중요하므로, 기대치보다 높은 압축률을 적용해 성능을 테스트해보는 것이 좋습니다.

핵심 포인트

3070 8GB + 64GB DDR4 환경에서 Qwen3.6-35B-A3B-UD-IQ4_XS(~18GB) 는 최적화 시 25~30 토큰/초 속도
더 큰 양자화를 사용한 Q4_K_XL(~23GB) 모델이 128k 컨텍스트에서 32 토큰/초로 더 빠른 성능을 보임
품질과 속도의 균형을 위해 Q5_K_S 를 사용하면 약 30 토큰/초를 유지하며 128k 컨텍스트에서도 안정적
MoE 모델의 경우 예상보다 큰 양자화 (bigger quants) 를 시도하는 것이 성능 향상에 도움이 될 수 있음

Qwen3.6-35B-A3B - even in VRAM limited scenarios it can be better to use bigger quants than you'd expect!

많은 경험 많은 로컬 LLM 사용자들에게는 이 문제가 너무 명확해 보일지 모르지만, 저에게는 그렇지 않았습니다.

저는 3070 8GB + 64GB DDR4 구성을 사용하고 있습니다. 꽤 가벼운 세팅이라 가장 작은 Q4 unsloth 모델인 Qwen3.6-35B-A3B-UD-IQ4_XS.gguf (~~18GB) 를 선택했습니다. 이 모델은 작동하는데, llama.cpp 에서 일부 최적화를 통해 32k 컨텍스트 윈도우에서 약 25~~30 토큰/초의 속도를 얻었습니다.

다만 생각 중 (thinking) 에 루프가 반복되는 문제가 발생했으므로 더 큰 Q4 모델인 Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf (~23GB) 를 시도해 보았습니다. 놀랍게도 이 모델이 훨씬 빠르다는 것을 발견했습니다. 128k 컨텍스트 윈도우를 사용할 때 약 32 토큰/초의 속도를 기록하고 있습니다.

결국 품질과 속도의 균형을 위해 Q5_K_S 를 사용하게 되었습니다. 약 30 토큰/초의 속도를 유지하며, 저는 128k 컨텍스트 윈도우를 사용하고 있습니다. 속도는 긴 컨텍스트에서 떨어지기는 하지만, 50k 컨텍스트에서도 여전히 25 토큰/초 이상입니다! (더 높은 컨텍스트는 아직 테스트하지 않았습니다.)

결론적으로 - 이 종류의 MoE 모델의 경우, 기대할 수 있는 것보다 더 큰 양자화 (bigger quants) 를 실험해 보는 것이 좋습니다!

AI 자동 생성 콘텐츠

원문 바로가기

VRAM 제한 환경에서도 고압축 양자화 모델이 더 빠를 수 있다

요약

핵심 포인트

Qwen3.6-35B-A3B - even in VRAM limited scenarios it can be better to use bigger quants than you'd expect!

댓글