본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 22. 21:24

Gemma 4 31B를 위한 QAT KV 캐시 양자화는 표준 양자화(quants)보다 엄청난 개선을 보여줍니다

요약

Gemma 4 31B 모델에서 QAT(양자화 인식 학습)를 적용한 KV 캐시 양자화가 표준 양자화 방식보다 압도적인 성능을 보임을 입증했습니다. KL 발산 지표를 통해 QAT가 모델의 정보 손실과 이상치를 획기적으로 줄여줌을 확인했습니다.

핵심 포인트

  • QAT 적용 시 표준 양자화 대비 KL 발산 수치가 극적으로 낮아짐
  • QAT q8_0는 표준 q4_0보다 최악의 경우 발산 측면에서 약 38배 우수
  • QAT는 긴 문맥 실행 시 발생하는 이상치와 문맥 저하를 효과적으로 방지
  • 메모리 절감 효과는 유지하면서 모델 품질 저하를 최소화 가능

Gemma 4 31B에 대한 KV 캐시 양자화(KV cache quantization) 수치와 QAT (Quantization-Aware Training, 양자화 인식 학습) 및 표준 Q4_K_S 양자화 간의 차이는 상당히 놀랍습니다.

여기서 사용된 지표는 KL 발산 (KL divergence)입니다. 기본적으로 양자화된 모델이 원본 모델로부터 얼마나 "이탈(drift)"하는지를 나타냅니다. 값이 낮을수록 좋으며, 0은 완벽함을 의미합니다.

표준 Q4_K_S KV 캐시 (가장 심각한 경우):

q4_0: 평균 KLD 0.768, 최악의 경우 24.3까지 급증
q5_0: 평균 0.436, 최악의 경우 22.1
q8_0: 평균 0.183, 최악의 경우 16.9

QAT KV 캐시:

q4_0: 평균 0.124, 최악의 경우 3.4
q5_0: 평균 0.056, 최악의 경우 2.5
q8_0: 평균 0.020, 최악의 경우 1.5 🔥

QAT q8_0는 최악의 경우 발산(worst-case divergence) 측면에서 표준 q4_0보다 약 38배 더 뛰어납니다. 심지어 가장 압축된 QAT 옵션인 QAT q4_0조차 표준 q8_0를 크게 앞섭니다.

"99.9 백분위수(99.9th percentile)" 열이 신뢰성 측면에서 중요한데, 이러한 급증(spikes)이 긴 실행 시 이상한 출력이나 문맥 저하(context degradation)를 유발하기 때문입니다. QAT는 기본적으로 이러한 치명적인 이상치(outliers)를 제거합니다.

만약 Gemma 4 31B를 로컬에서 실행 중이고 사용 중인 추론 백엔드(inference backend)가 QAT KV 양자화를 지원한다면, 전환할 가치가 충분합니다. 메모리 절감 효과는 표준 양자화와 거의 동일하지만, 품질 저하는 극적으로 적습니다.

영어가 제 모국어가 아니라서 포맷팅에 gemini를 사용했습니다.
submitted by /u/iSyN707
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0