OScaR: LLM 및 그 이상의 영역에서 극단적인 KV 캐시 양자화(Quantization)를 위한 오컴의 면도날

긴 문맥 추론(Long-context reasoning)과 멀티모달(Multi-modal) 지능을 향한 급격한 발전은 Key-Value (KV) 캐시의 메모리 점유율을 효율적인 배포를 위한 지배적인 메모리 병목 현상으로 만들었습니다. 기존의 채널별 양자화(Per-channel quantization)는 Key 텐서 내의 고유한 채널별 이상치(Outliers)를 효과적으로 수용하지만, 극단적인 압축 환경에서는 그 효능이 감소합니다. 본 연구에서는 경험적 및 이론적 관점 모두에서 채널별 양자화 패러다임의 내재적 한계를 재검토합니다. 우리의 분석은 토큰 노름 불균형(Token Norm Imbalance, TNI)을 양자화 충실도(Quantization fidelity)의 주요 병목 현상으로 식별합니다. 우리는 공유된 양자화 파라미터가 상당한 노름 차이를 보이는 토큰 그룹을 포괄해야 할 때, TNI가 오류를 체계적으로 증폭시킨다는 것을 입증합니다. 복잡한 양자화 파이프라인(예: TurboQuant)에 의존하는 대신, 우리는 X-LLM(즉, 텍스트 전용, 멀티모달 및 옴니모달 LLM)을 위한 정확하고 가벼운 KV 캐시 압축 프레임워크인 OScaR (Omni-Scaled Canalized Rotation)을 제안합니다. 채널별 패러다임을 발전시킨 OScaR은 Canalized Rotation에 이어 Omni-Token Scaling을 적용하여, 최적화된 시스템 설계와 CUDA 커널의 지원을 통해 TNI로 유발되는 시퀀스 차원 분산(Sequence-dimensional variance)을 효과적이고 효율적으로 완화합니다. X-LLM에 대한 광범위한 평가 결과, OScaR은 기존 방법들을 지속적으로 능가하며 INT2 양자화 환경에서도 손실이 거의 없는(Near-lossless) 성능을 달ama, 새로운 파레토 프런트(Pareto front)를 정의하는 강력하고 복잡도가 낮으며 범용적인 프레임워크임을 입증했습니다. BF16 FlashDecoding-v2 베이스라인과 비교했을 때, 우리의 OScaR 구현은 디코딩(Decoding)에서 최대 3.0배의 주목할 만한 속도 향상을 달성하고, 메모리 점유율을 5.3배 줄이며, 처리량(Throughput)을 4.1배 증가시켰습니다. OScaR의 코드는 https://github.com/ZunhaiSu/OScaR-KV-Quant 에서 공개적으로 사용할 수 있습니다.

Insights

OScaR: LLM 및 그 이상의 영역에서 극단적인 KV 캐시 양자화(Quantization)를 위한 오컴의 면도날

요약

핵심 포인트

댓글

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek