[Qwen3.6 35B a3b] 설정에 최상위 구성 사용 시 Q4_K_XL 모델이 Q4_K_M 보다 더 빠르고 토큰 소모가 적음
요약
본 기사는 Qwen3.6 35B 모델을 다양한 설정(CtxSize: 131,072, GpuLayers: 99 등)으로 최상위 구성하여 테스트한 결과를 분석합니다. 그 결과, Q4_K_XL 양자화 모델이 Q4_K_M 모델보다 평균 토큰 생성 속도가 더 빠르고 효율적임을 보여줍니다. 특히, XL 모델은 M 모델 대비 약 3.0%의 성능 향상을 보였습니다.
핵심 포인트
- Qwen3.6 35B와 같은 대규모 언어 모델(LLM)을 최상위 구성으로 테스트할 때, 양자화 레벨 선택이 성능에 큰 영향을 미칩니다.
- 테스트 결과, Q4_K_XL 모델이 Q4_K_M 모델보다 평균 토큰 생성 속도(Avg Tokens/sec)가 더 빠르고 효율적입니다.
- 모델의 초기 실행 시간 측정 시에는 시스템 오버헤드나 코드 버그로 인한 비정상적인 지연 시간이 포함될 수 있으므로, 실제 사용 환경을 고려해야 합니다.
구성
- CtxSize: 131,072
- GpuLayers: 99
- CpuMoeLayers: 38
- Threads: 16
- BatchSize/UBatchSize: 4096/4096
- CacheType K/V: q8_0
- Tool Context: file mode (tools.kilocode.official.md)
| Metric | M Model | XL Model | Difference |
|---|---|---|---|
| Avg Tokens/sec | 28.92 | 29.78 | +0.86 (+3.0%) |
| ... |
~33% 더 느리게 실행됨: 초기 실행 시에는 코드에 버그가 있어 시작 시간을 포함하고 있기 때문입니다. Moe 모델은 저장소에서 RAM 으로 전달해야 하므로, 이를 5 회 반복하여 상쇄하려 했으나 여전히 포함되어 있습니다 (켜기, 한 번 사용, 끄기 등 실제 사용 방식).
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기