GSRQ: Sub-1-bit KV 캐시를 위한 Gain-Shape 잔차 양자화

확장된 컨텍스트 윈도우 (context windows)를 가진 대규모 언어 모델 (LLMs)의 배포는 Key-Value (KV) 캐시 메모리의 선형적 증가로 인해 점점 더 제약을 받고 있습니다. 벡터 양자화 (Vector Quantization, VQ), 특히 잔차 양자화 (Residual Quantization, RQ)는 작은 코드북 (codebooks)으로 잔차를 점진적으로 인코딩함으로써 KV 캐시 저장 용량을 1비트 미만 (sub-1-bit) 영역으로 밀어붙이기 위한 유망한 접근 방식입니다. 그러나 대부분의 VQ 방법은 여전히 표준 $\ell_2$ $K$-means를 핵심 코드북 학습 프리미티브 (primitive)로 의존하고 있습니다. 우리는 이 프리미티브의 미묘한 고차원 문제를 식별했습니다. 유클리드 중심점 평균화 (Euclidean centroid averaging)는 중심점 수축 (centroid shrinkage)을 유발할 수 있으며, 이는 $\ell_2$ 왜곡 (distortion)에서의 각도 정렬 (angular alignment) 항을 약화시키고 방향성 보존을 더 어렵게 만듭니다. 이 문제를 해결하기 위해, 우리는 $\ell_2$ 왜곡을 유지하거나 일부 영역에서는 개선하면서 방향 충실도 (directional fidelity)를 향상시키는 $K$-means의 교체 가능한 방식인 Gain-Shape $K$-means (GSKM)를 제안합니다. 그런 다음, GSKM의 가중치 확장 버전을 RQ 파이프라인에 통합하여 Gain-Shape 잔차 양자화 (Gain-Shape Residual Quantization, GSRQ)를 구축합니다. LLaMA-3-8B에서 GSRQ는 다양한 비트 레이트 (bit rates)에 걸쳐 강력한 KV 캐시 양자화 베이스라인 (baselines) 대비 실질적인 성능 향상을 보여줍니다. 1비트에서, GSRQ는 LongBench 태스크 전반의 평균 정확도를 11.34에서 33.54로 향상시켰으며, 이는 VQLLM 대비 22.20 퍼센트 포인트의 이득입니다.

Insights

GSRQ: Sub-1-bit KV 캐시를 위한 Gain-Shape 잔차 양자화

요약

핵심 포인트

댓글

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침