Qwen2.5-35B-A3B 및 Gemma2-9B QAT를 위한 KV 캐시 양자화의 KLD 매핑 결과
요약
Qwen2.5-35B-A3B 및 Gemma2-9B 모델의 KV 캐시 양자화 성능을 KLD 매핑을 통해 분석한 연구 결과입니다. 양자화 비트 수에 따른 모델별 민감도 차이와 압축 효율성을 다룹니다.
핵심 포인트
- Qwen은 q4/q4 양자화가 가능하나 Gemma는 치명적인 성능 저하 발생
- q8/q8 양자화는 두 모델 모두에서 비용 대비 효율적임
- turbo 계열 양자화는 높은 압축률을 제공하지만 성능 대가가 따름
- K(Key)와 V(Value) 캐시의 양자화 민감도는 모델마다 상이함
요약 (TL;DR) 버전
- 두 모델 모두에서 q8/q8은 비용이 거의 들지 않음
- Qwen에서는 q4/q4를 사용할 수 있으나, Gemma에서는 치명적임
- turbo4는 때때로 q4_0보다 약간 더 좋거나 약간 더 나쁨
- turbo3 및 turbo2는 캐시를 전례 없는 수준으로 압축할 수 있게 해주지만, 그에 따른 대가를 톡톡히 치르게 될 것임
- K는 때때로 V보다 더 민감하고, 때로는 덜 민감하며, 때로는 대칭을 이룸
전체 분석
미묘한 차이, 주의 사항, 확대 가능한 그래프, 그리고 어떤 모델로든 이 그래프들을 재현할 수 있는 소프트웨어:
https://github.com/crusaderky/pixi-llm-recipes/tree/main/perplexity#readme
제출자: /u/crusaderky
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기