본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 21. 22:15

Gemma 4 QAT가 KV 캐시 양자화(KV cache quantization)에 훨씬 더 잘 대응하는 것으로 보임

요약

Gemma 4의 QAT(Quantization-Aware Training) 모델이 KV 캐시 양자화에 대해 높은 성능을 유지함을 보여줍니다. KL 발산(KLD) 지표를 통해 양자화 시에도 모델의 어텐션 성능이 잘 보존됨을 확인했습니다.

핵심 포인트

  • Gemma 4 QAT 모델은 KV 캐시 양자화에 대한 민감도가 낮음
  • Q8_0 방식의 양자화가 다시 유효한 옵션으로 부상
  • KLD 지표를 통해 양자화 시 토큰 어텐션 유지 성능 확인

16k 컨텍스트를 사용한 wikitext에서의 KL 발산(KL Divergence) 결과

저를 포함한 일부 사용자들은 Gemma 4가 KV 캐시 양자화(KV cache quantization)에 민감하게 반응하는 것에 실망했던 것을 알고 있습니다. QAT 모델에서는 Q8_0 방식이 다시 선택 가능한 옵션이 될 수 있을 것 같습니다.

KLD는 베이스(이 경우 전체 16-bit KV 캐시)로부터의 발산을 측정합니다. 99.9% KLD는 KV 양자화가 모델 성능, 특히 희귀하고 중요도가 높은 토큰에 대한 어텐션(attention)을 얼마나 잘 유지할 수 있는지 측정하는 데 있어 꽤 좋은 지표입니다.

제 하드웨어로는 31B를 테스트할 수 없지만, 혹시 다른 분이 이를 조사해 보신다면 매우 흥미로울 것 같습니다.

submitted by /u/rima_2711
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0