r/LocalLLaMA분석2026. 06. 21. 22:15

Gemma 4 QAT가 KV 캐시 양자화(KV cache quantization)에 훨씬 더 잘 대응하는 것으로 보임

요약

Gemma 4의 QAT(Quantization-Aware Training) 모델이 KV 캐시 양자화에 대해 높은 성능을 유지함을 보여줍니다. KL 발산(KLD) 지표를 통해 양자화 시에도 모델의 어텐션 성능이 잘 보존됨을 확인했습니다.

16k 컨텍스트를 사용한 wikitext에서의 KL 발산(KL Divergence) 결과

저를 포함한 일부 사용자들은 Gemma 4가 KV 캐시 양자화(KV cache quantization)에 민감하게 반응하는 것에 실망했던 것을 알고 있습니다. QAT 모델에서는 Q8_0 방식이 다시 선택 가능한 옵션이 될 수 있을 것 같습니다.

KLD는 베이스(이 경우 전체 16-bit KV 캐시)로부터의 발산을 측정합니다. 99.9% KLD는 KV 양자화가 모델 성능, 특히 희귀하고 중요도가 높은 토큰에 대한 어텐션(attention)을 얼마나 잘 유지할 수 있는지 측정하는 데 있어 꽤 좋은 지표입니다.

제 하드웨어로는 31B를 테스트할 수 없지만, 혹시 다른 분이 이를 조사해 보신다면 매우 흥미로울 것 같습니다.

submitted by /u/rima_2711
[link] [comments]

AI 자동 생성 콘텐츠