X요약2026. 06. 07. 13:54

Huawei CSL, vLLM을 위한 KV-cache 양자화 플러그인 개발

원문 발행 2026. 06. 07. 13:40원문 언어 중국어AI 한국어 번역X @qingq77 (검증됨) 원문 보기

요약

Huawei CSL이 vLLM용 KV-cache 양자화 플러그인을 개발했습니다. Hadamard 회전과 분산 정규화를 활용해 별도의 교정 없이도 높은 정밀도와 처리량을 제공합니다.

핵심 포인트

별도의 교정(Calibration) 과정 없이 즉시 사용 가능
캐시 용량을 3~5배 확장하여 긴 문맥 처리에 유리
TurboQuant 대비 2.4배 빠른 속도와 높은 정밀도 구현
Qwen3-32B 테스트 결과 FP16 수준의 정밀도 유지

Huawei CSL이 vLLM을 위해 개발한 KV-cache 양자화 (Quantization) 플러그인은 파라미터 하나만 추가하면 바로 사용할 수 있으며, 별도의 교정 (Calibration) 과정이 필요하지 않습니다. 이 방식은 캐시를 작은 블록으로 나누고, Hadamard 회전 (Hadamard Transform)과 분산 정규화 (Variance Normalization)를 사용하여 양자화를 수행합니다. Qwen3-32B 모델 테스트 결과, FP16과 동일한 정밀도를 유지하면서도 처리량 (Throughput)은 더 높아졌으며, 캐시 용량은 3~5배 증가했습니다. TurboQuant보다 2.4배 빠르며 정밀도 또한 더 뛰어납니다. 논문은 arXiv에 공개되어 있으며, 긴 문맥 (Long-context) 처리 및 에이전트 (Agent) 시나리오에 적합합니다.

[IMG:https://pbs.twimg.com/media/HKGCYXvbEAAKybB.jpg]

AI 자동 생성 콘텐츠

원문 바로가기

Insights

Huawei CSL, vLLM을 위한 KV-cache 양자화 플러그인 개발

요약

핵심 포인트

댓글

Gentherm, 2분기 예상치 상회 및 가이던스 상향

Global Dominion Access, S.A. 상반기 실적 발표

대부분의 AI 에이전트는 금붕어와 같은 기억력을 가지고 있습니다.