Reddit요약2026. 05. 04. 17:21

[Qwen3.6 35B a3b] 설정에 최상위 구성 사용 시 Q4_K_XL 모델이 Q4_K_M 보다 더 빠르고 토큰 소모가 적음

요약

본 기사는 Qwen3.6 35B 모델을 다양한 설정(CtxSize: 131,072, GpuLayers: 99 등)으로 최상위 구성하여 테스트한 결과를 분석합니다. 그 결과, Q4_K_XL 양자화 모델이 Q4_K_M 모델보다 평균 토큰 생성 속도가 더 빠르고 효율적임을 보여줍니다. 특히, XL 모델은 M 모델 대비 약 3.0%의 성능 향상을 보였습니다.

핵심 포인트

Qwen3.6 35B와 같은 대규모 언어 모델(LLM)을 최상위 구성으로 테스트할 때, 양자화 레벨 선택이 성능에 큰 영향을 미칩니다.
테스트 결과, Q4_K_XL 모델이 Q4_K_M 모델보다 평균 토큰 생성 속도(Avg Tokens/sec)가 더 빠르고 효율적입니다.
모델의 초기 실행 시간 측정 시에는 시스템 오버헤드나 코드 버그로 인한 비정상적인 지연 시간이 포함될 수 있으므로, 실제 사용 환경을 고려해야 합니다.

구성

CtxSize: 131,072
GpuLayers: 99
CpuMoeLayers: 38
Threads: 16
BatchSize/UBatchSize: 4096/4096
CacheType K/V: q8_0
Tool Context: file mode (tools.kilocode.official.md)

Metric	M Model	XL Model	Difference
Avg Tokens/sec	28.92	29.78	+0.86 (+3.0%)
...

~33% 더 느리게 실행됨: 초기 실행 시에는 코드에 버그가 있어 시작 시간을 포함하고 있기 때문입니다. Moe 모델은 저장소에서 RAM 으로 전달해야 하므로, 이를 5 회 반복하여 상쇄하려 했으나 여전히 포함되어 있습니다 (켜기, 한 번 사용, 끄기 등 실제 사용 방식).

AI 자동 생성 콘텐츠

원문 바로가기

[Qwen3.6 35B a3b] 설정에 최상위 구성 사용 시 Q4_K_XL 모델이 Q4_K_M 보다 더 빠르고 토큰 소모가 적음

요약

핵심 포인트

구성

댓글