GSRQ: Sub-1-bit KV 캐시를 위한 Gain-Shape 잔차 양자화
요약
LLM의 KV 캐시 메모리 문제를 해결하기 위해 1비트 미만의 sub-1-bit 양자화를 지원하는 GSRQ 기법을 제안합니다. 기존 K-means의 중심점 수축 문제를 해결하는 Gain-Shape K-means를 통해 방향 충실도를 높여 성능을 개선했습니다.
핵심 포인트
- KV 캐시 메모리 제약을 극복하기 위한 sub-1-bit 잔차 양자화 제안
- 기존 K-means의 중심점 수축 문제를 해결하는 GSKM 방식 도입
- LLaMA-3-8B 모델에서 LongBench 태스크 성능 대폭 향상
- 1비트 환경에서 VQLLM 대비 22.20%p의 정확도 이득 달성
확장된 컨텍스트 윈도우 (context windows)를 가진 대규모 언어 모델 (LLMs)의 배포는 Key-Value (KV) 캐시 메모리의 선형적 증가로 인해 점점 더 제약을 받고 있습니다. 벡터 양자화 (Vector Quantization, VQ), 특히 잔차 양자화 (Residual Quantization, RQ)는 작은 코드북 (codebooks)으로 잔차를 점진적으로 인코딩함으로써 KV 캐시 저장 용량을 1비트 미만 (sub-1-bit) 영역으로 밀어붙이기 위한 유망한 접근 방식입니다. 그러나 대부분의 VQ 방법은 여전히 표준 $\ell_2$ $K$-means를 핵심 코드북 학습 프리미티브 (primitive)로 의존하고 있습니다. 우리는 이 프리미티브의 미묘한 고차원 문제를 식별했습니다. 유클리드 중심점 평균화 (Euclidean centroid averaging)는 중심점 수축 (centroid shrinkage)을 유발할 수 있으며, 이는 $\ell_2$ 왜곡 (distortion)에서의 각도 정렬 (angular alignment) 항을 약화시키고 방향성 보존을 더 어렵게 만듭니다. 이 문제를 해결하기 위해, 우리는 $\ell_2$ 왜곡을 유지하거나 일부 영역에서는 개선하면서 방향 충실도 (directional fidelity)를 향상시키는 $K$-means의 교체 가능한 방식인 Gain-Shape $K$-means (GSKM)를 제안합니다. 그런 다음, GSKM의 가중치 확장 버전을 RQ 파이프라인에 통합하여 Gain-Shape 잔차 양자화 (Gain-Shape Residual Quantization, GSRQ)를 구축합니다. LLaMA-3-8B에서 GSRQ는 다양한 비트 레이트 (bit rates)에 걸쳐 강력한 KV 캐시 양자화 베이스라인 (baselines) 대비 실질적인 성능 향상을 보여줍니다. 1비트에서, GSRQ는 LongBench 태스크 전반의 평균 정확도를 11.34에서 33.54로 향상시켰으며, 이는 VQLLM 대비 22.20 퍼센트 포인트의 이득입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기