r/LocalLLaMA분석2026. 06. 22. 21:24

Gemma 4 31B를 위한 QAT KV 캐시 양자화는 표준 양자화(quants)보다 엄청난 개선을 보여줍니다

요약

Gemma 4 31B 모델에서 QAT(양자화 인식 학습)를 적용한 KV 캐시 양자화가 표준 양자화 방식보다 압도적인 성능을 보임을 입증했습니다. KL 발산 지표를 통해 QAT가 모델의 정보 손실과 이상치를 획기적으로 줄여줌을 확인했습니다.

핵심 포인트

QAT 적용 시 표준 양자화 대비 KL 발산 수치가 극적으로 낮아짐
QAT q8_0는 표준 q4_0보다 최악의 경우 발산 측면에서 약 38배 우수
QAT는 긴 문맥 실행 시 발생하는 이상치와 문맥 저하를 효과적으로 방지
메모리 절감 효과는 유지하면서 모델 품질 저하를 최소화 가능

Gemma 4 31B에 대한 KV 캐시 양자화(KV cache quantization) 수치와 QAT (Quantization-Aware Training, 양자화 인식 학습) 및 표준 Q4_K_S 양자화 간의 차이는 상당히 놀랍습니다.

여기서 사용된 지표는 KL 발산 (KL divergence)입니다. 기본적으로 양자화된 모델이 원본 모델로부터 얼마나 "이탈(drift)"하는지를 나타냅니다. 값이 낮을수록 좋으며, 0은 완벽함을 의미합니다.

표준 Q4_K_S KV 캐시 (가장 심각한 경우):

q4_0: 평균 KLD 0.768, 최악의 경우 24.3까지 급증
q5_0: 평균 0.436, 최악의 경우 22.1
q8_0: 평균 0.183, 최악의 경우 16.9

QAT KV 캐시:

q4_0: 평균 0.124, 최악의 경우 3.4
q5_0: 평균 0.056, 최악의 경우 2.5
q8_0: 평균 0.020, 최악의 경우 1.5 🔥

QAT q8_0는 최악의 경우 발산(worst-case divergence) 측면에서 표준 q4_0보다 약 38배 더 뛰어납니다. 심지어 가장 압축된 QAT 옵션인 QAT q4_0조차 표준 q8_0를 크게 앞섭니다.

"99.9 백분위수(99.9th percentile)" 열이 신뢰성 측면에서 중요한데, 이러한 급증(spikes)이 긴 실행 시 이상한 출력이나 문맥 저하(context degradation)를 유발하기 때문입니다. QAT는 기본적으로 이러한 치명적인 이상치(outliers)를 제거합니다.

만약 Gemma 4 31B를 로컬에서 실행 중이고 사용 중인 추론 백엔드(inference backend)가 QAT KV 양자화를 지원한다면, 전환할 가치가 충분합니다. 메모리 절감 효과는 표준 양자화와 거의 동일하지만, 품질 저하는 극적으로 적습니다.

영어가 제 모국어가 아니라서 포맷팅에 gemini를 사용했습니다.
submitted by /u/iSyN707
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Gemma 4 31B를 위한 QAT KV 캐시 양자화는 표준 양자화(quants)보다 엄청난 개선을 보여줍니다

요약

핵심 포인트

댓글