본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:55

OScaR: LLM 및 그 이상의 영역에서 극단적인 KV 캐시 양자화(Quantization)를 위한 오컴의 면도날

요약

OScaR은 LLM의 긴 문맥 추론과 멀티모달 지능 구현 시 발생하는 KV 캐시 메모리 병목 현상을 해결하기 위한 새로운 양자화 프레임워크입니다. 기존 채널별 양자화의 한계인 토큰 노름 불균형(TNI) 문제를 해결하기 위해 Canalized Rotation과 Omni-Token Scaling을 도입하여 INT2 수준의 극단적인 압축에서도 성능 저하를 최소화합니다.

핵심 포인트

  • 토큰 노름 불균형(Token Norm Imbalance, TNI)을 양자화 충실도 저하의 핵심 원인으로 식별
  • Canalized Rotation 및 Omni-Token Scaling을 통해 시퀀스 차원 분산을 효과적으로 완화
  • INT2 양자화 환경에서도 손실이 거의 없는(Near-lossless) 성능 구현
  • 기존 BF16 FlashDecoding-v2 대비 디코딩 속도 최대 3.0배, 메모리 점유율 5.3배 감소, 처리량 4.1배 향상

긴 문맥 추론(Long-context reasoning)과 멀티모달(Multi-modal) 지능을 향한 급격한 발전은 Key-Value (KV) 캐시의 메모리 점유율을 효율적인 배포를 위한 지배적인 메모리 병목 현상으로 만들었습니다. 기존의 채널별 양자화(Per-channel quantization)는 Key 텐서 내의 고유한 채널별 이상치(Outliers)를 효과적으로 수용하지만, 극단적인 압축 환경에서는 그 효능이 감소합니다. 본 연구에서는 경험적 및 이론적 관점 모두에서 채널별 양자화 패러다임의 내재적 한계를 재검토합니다. 우리의 분석은 토큰 노름 불균형(Token Norm Imbalance, TNI)을 양자화 충실도(Quantization fidelity)의 주요 병목 현상으로 식별합니다. 우리는 공유된 양자화 파라미터가 상당한 노름 차이를 보이는 토큰 그룹을 포괄해야 할 때, TNI가 오류를 체계적으로 증폭시킨다는 것을 입증합니다. 복잡한 양자화 파이프라인(예: TurboQuant)에 의존하는 대신, 우리는 X-LLM(즉, 텍스트 전용, 멀티모달 및 옴니모달 LLM)을 위한 정확하고 가벼운 KV 캐시 압축 프레임워크인 OScaR (Omni-Scaled Canalized Rotation)을 제안합니다. 채널별 패러다임을 발전시킨 OScaR은 Canalized Rotation에 이어 Omni-Token Scaling을 적용하여, 최적화된 시스템 설계와 CUDA 커널의 지원을 통해 TNI로 유발되는 시퀀스 차원 분산(Sequence-dimensional variance)을 효과적이고 효율적으로 완화합니다. X-LLM에 대한 광범위한 평가 결과, OScaR은 기존 방법들을 지속적으로 능가하며 INT2 양자화 환경에서도 손실이 거의 없는(Near-lossless) 성능을 달ama, 새로운 파레토 프런트(Pareto front)를 정의하는 강력하고 복잡도가 낮으며 범용적인 프레임워크임을 입증했습니다. BF16 FlashDecoding-v2 베이스라인과 비교했을 때, 우리의 OScaR 구현은 디코딩(Decoding)에서 최대 3.0배의 주목할 만한 속도 향상을 달성하고, 메모리 점유율을 5.3배 줄이며, 처리량(Throughput)을 4.1배 증가시켰습니다. OScaR의 코드는 https://github.com/ZunhaiSu/OScaR-KV-Quant 에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0