OScaR: 극한의 KV 캐시 양자화 (KV Cache Quantization)를 위한 오컴의 면도날
요약
OScaR은 데이터, 학습, 보정 과정 없이 INT2 양자화를 수행하는 새로운 KV 캐시 양자화 기술입니다. 다양한 X-LLM 모델에서 정확도 손실을 최소화하면서도 3배의 속도 향상과 5.3배의 메모리 절감 효과를 입증했습니다.
핵심 포인트
- 데이터나 학습/보정 과정이 필요 없는 INT2 양자화 방식
- 기존 대비 3배의 추론 속도 향상 달성
- 메모리 사용량을 5.3배 절감
- 다양한 X-LLM 모델에서 높은 정확도 유지
OScaR: 극한의 KV 캐시 양자화 (KV Cache Quantization)를 위한 오컴의 면도날
데이터, 학습(training), 또는 보정(calibration) 없는 INT2 양자화 (quantization).
다양한 X-LLMs에 걸쳐 손실이 거의 없는 정확도와 함께 3배의 속도 향상 및 5.3배의 메모리 절감을 달성합니다.
[IMG:1]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기