본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 06. 15. 09:43

KVarN: Huawei의 새로운 KV-cache 양자화 기술. 속도 저하 없이 3~5배의 KV-cache 압축 구현, TurboQuant와

요약

Huawei가 오픈 소스로 공개한 KVarN은 속도 저하 없이 KV-cache를 3~5배 압축하는 새로운 양자화 기술입니다. 기존 TurboQuant와 달리 처리량과 추론 품질을 동시에 유지하며, vLLM에서 단일 플래그로 즉시 적용 가능합니다.

핵심 포인트

  • FP16 대비 3~5배의 컨텍스트 확장 가능
  • TurboQuant 대비 최대 2.4배 높은 처리량 제공
  • 재학습이나 캘리브레이션 없이 vLLM에 즉시 적용
  • 높은 압축률에서도 모델의 추론 품질 유지

KV-cache 양자화 (quantization) 경쟁이 더욱 흥미로워졌습니다. Huawei가 Apache 2.0 라이선스로 KVarN을 오픈 소스로 공개했습니다. 이 방식은 vLLM에서 단 하나의 플래그로 바로 적용할 수 있습니다. 제가 이 글을 올리는 이유는 KVarN이 주장하는 트레이드오프 (tradeoff)가 기존 스택에 있는 것들과 진정으로 다르며, 이에 대한 스트레스 테스트 (stress-test)를 보고 싶기 때문입니다.

현재 기본값으로 자리 잡은 FP8 ( --kv-cache-dtype fp8 ) 환경은 약 2배의 KV 용량, BF16 수준의 처리량 (throughput), 그리고 거의 제로에 가까운 품질 손실을 제공합니다. 이는 매우 강력하며, 새롭게 등장하는 기술들이 넘어야 할 기준점입니다. TurboQuant (Google)는 올해 공격적인 압축 성능으로 헤드라인을 장식했습니다. 지난 3월 메모리 칩 주가를 놀라게 했던 바로 그 기술입니다. 하지만 vLLM 자체 연구 (Red Hat AI)에 따르면, 이 기술은 속도를 희생하여 메모리를 확보합니다. 어텐션 연산 (attention compute)을 위해 다시 BF16으로 역양자화 (dequantize)하기 때문에, BF16 처리량의 66-80% 수준으로 작동하며 버스트 (burst) 시에는 최대 ~2.5배 느려집니다. 또한 저비트 (low-bit) 모드에서는 추론 능력 (reasoning)이 약 20포인트 하락합니다 (AIME25, LiveCodeBench 기준).

KVarN이 주장하는 바 (FP16 대비)는 다음과 같습니다:

  • 3~5배 더 많은 컨텍스트 (FP8의 ~2배 대비)
  • 최대 ~1.4배의 FP16 처리량
  • FP16 수준의 출력 품질 유지
  • TurboQuant 대비 최대 ~2.4배의 처리량 (동일 정확도 기준)
  • 모든 TurboQuant 작동 지점 (해당 논문의 표 참조)만큼은 최소한으로 컴팩트함
  • 높은 압축률에서도 추론 품질 유지
  • TurboQuant의 저비트 변형 모델들이 성능이 무너지는 정확한 지점에서도 유지됨
  • 모델 변경 없음, 재학습 없음, 캘리브레이션 (calibration) 없음
  • 단일 vLLM 플래그 적용

추론 벤치마크 (논문 출처) https://preview.redd.it/aeyuff7h2a5h1.png?width=738&format=png&auto=webp&s=252a2948ed2e3dca280f967c3858c

이 부분이 핵심입니다. 대부분의 KV-cache 양자화 기술은 수학/코드 정확도나 처리량 중 하나를 포기해야 하지만, KVarN은 둘 다 포기하지 않는다고 주장합니다.

vLLM에서의 처리량 (Throughput with vLLM v.)

압축 (저장소 README에서 발췌) https://preview.redd.it/11lhlua73a5h1.png?width=1216&format=png&auto=webp&s=2b50ac0169708511cb3b29f84084fafeda94fed1

저장소 링크: https://github.com/huawei-csl/KVarN
논문: https://arxiv.org/abs/2606.03458
vLLM TurboQuant 연구 (위의 처리량 / 추론 수치의 출처): https://vllm.ai/blog/2026-05-11-turboquant

마치 그들이 모든 사람이 처리량 수치와 vLLM 통합을 요구했던 SINQ (https://www.reddit.com/r/LocalLLaMA/comments/1nxjh4c/github_huaweicslsinq_welcome_to_the_official/) 사례로부터 배운 것처럼 보입니다 😃

/u/acluk90 님이 r/LocalLLaMA에 제출함 [링크] [댓글]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0