KVarN: Huawei의 새로운 KV-cache 양자화 기술. 속도 저하 없이 3~5배의 KV-cache 압축 구현, TurboQuant와

요약

Huawei가 오픈 소스로 공개한 KVarN은 속도 저하 없이 KV-cache를 3~5배 압축하는 새로운 양자화 기술입니다. 기존 TurboQuant와 달리 처리량과 추론 품질을 동시에 유지하며, vLLM에서 단일 플래그로 즉시 적용 가능합니다.

핵심 포인트

FP16 대비 3~5배의 컨텍스트 확장 가능
TurboQuant 대비 최대 2.4배 높은 처리량 제공
재학습이나 캘리브레이션 없이 vLLM에 즉시 적용
높은 압축률에서도 모델의 추론 품질 유지

KV-cache 양자화 (quantization) 경쟁이 더욱 흥미로워졌습니다. Huawei가 Apache 2.0 라이선스로 KVarN을 오픈 소스로 공개했습니다. 이 방식은 vLLM에서 단 하나의 플래그로 바로 적용할 수 있습니다. 제가 이 글을 올리는 이유는 KVarN이 주장하는 트레이드오프 (tradeoff)가 기존 스택에 있는 것들과 진정으로 다르며, 이에 대한 스트레스 테스트 (stress-test)를 보고 싶기 때문입니다.

현재 기본값으로 자리 잡은 FP8 ( --kv-cache-dtype fp8 ) 환경은 약 2배의 KV 용량, BF16 수준의 처리량 (throughput), 그리고 거의 제로에 가까운 품질 손실을 제공합니다. 이는 매우 강력하며, 새롭게 등장하는 기술들이 넘어야 할 기준점입니다. TurboQuant (Google)는 올해 공격적인 압축 성능으로 헤드라인을 장식했습니다. 지난 3월 메모리 칩 주가를 놀라게 했던 바로 그 기술입니다. 하지만 vLLM 자체 연구 (Red Hat AI)에 따르면, 이 기술은 속도를 희생하여 메모리를 확보합니다. 어텐션 연산 (attention compute)을 위해 다시 BF16으로 역양자화 (dequantize)하기 때문에, BF16 처리량의 66-80% 수준으로 작동하며 버스트 (burst) 시에는 최대 ~2.5배 느려집니다. 또한 저비트 (low-bit) 모드에서는 추론 능력 (reasoning)이 약 20포인트 하락합니다 (AIME25, LiveCodeBench 기준).

KVarN이 주장하는 바 (FP16 대비)는 다음과 같습니다:

3~5배 더 많은 컨텍스트 (FP8의 ~2배 대비)
최대 ~1.4배의 FP16 처리량
FP16 수준의 출력 품질 유지
TurboQuant 대비 최대 ~2.4배의 처리량 (동일 정확도 기준)
모든 TurboQuant 작동 지점 (해당 논문의 표 참조)만큼은 최소한으로 컴팩트함
높은 압축률에서도 추론 품질 유지
TurboQuant의 저비트 변형 모델들이 성능이 무너지는 정확한 지점에서도 유지됨
모델 변경 없음, 재학습 없음, 캘리브레이션 (calibration) 없음
단일 vLLM 플래그 적용

추론 벤치마크 (논문 출처) https://preview.redd.it/aeyuff7h2a5h1.png?width=738&format=png&auto=webp&s=252a2948ed2e3dca280f967c3858c

이 부분이 핵심입니다. 대부분의 KV-cache 양자화 기술은 수학/코드 정확도나 처리량 중 하나를 포기해야 하지만, KVarN은 둘 다 포기하지 않는다고 주장합니다.

vLLM에서의 처리량 (Throughput with vLLM v.)

압축 (저장소 README에서 발췌) https://preview.redd.it/11lhlua73a5h1.png?width=1216&format=png&auto=webp&s=2b50ac0169708511cb3b29f84084fafeda94fed1

저장소 링크: https://github.com/huawei-csl/KVarN
논문: https://arxiv.org/abs/2606.03458
vLLM TurboQuant 연구 (위의 처리량 / 추론 수치의 출처): https://vllm.ai/blog/2026-05-11-turboquant

마치 그들이 모든 사람이 처리량 수치와 vLLM 통합을 요구했던 SINQ (https://www.reddit.com/r/LocalLLaMA/comments/1nxjh4c/github_huaweicslsinq_welcome_to_the_official/) 사례로부터 배운 것처럼 보입니다 😃

/u/acluk90 님이 r/LocalLLaMA에 제출함 [링크] [댓글]

AI 자동 생성 콘텐츠

원문 바로가기