본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 16:32

VeriCache: 손실이 있는 KV Cache를 손실 없는 LLM 추론으로 전환하기

요약

VeriCache는 KV 캐시 압축 시 발생하는 정보 손실 문제를 해결하기 위해, 압축된 캐시로 초안을 작성하고 전체 캐시로 검증하는 새로운 추론 프레임워크입니다. 압축 디코딩과 전체 KV 캐시 스와핑을 병렬화하여 오버헤드를 최소화함으로써, 정확도를 유지하면서도 기존 전체 KV 추론 대비 최대 4배의 처리량 향상을 달성했습니다.

핵심 포인트

  • KV 캐시 압축(토큰 드롭핑, 양자화)으로 인한 출력 정확도 저하 문제를 해결
  • 압축된 KV 캐시를 통한 초안 작성(Drafting)과 전체 KV 캐시를 통한 검증(Verification) 메커니즘 도입
  • HBM 대역폭 제한 문제와 PCIe/네트워크 제한 문제를 병렬 처리를 통해 최적화
  • 긴 초안 작성 범위를 활용하여 전체 KV 캐시 스와핑 비용을 분할(Amortize)
  • 긴 컨텍스트 디코딩 및 원격 프리픽스 캐싱에 적용 가능하며 기존 투기적 디코딩과 결합 가능

컨텍스트 길이(context lengths)가 증가함에 따라 KV 캐시(KV cache)의 거대한 크기는 LLM(Large Language Models) 서비스를 제공하는 데 있어 주요한 병목 현상이 되었습니다. 이에 대응하여 토큰 드롭핑(token dropping) 및 양자화(quantization)와 같은 많은 KV 캐시 압축 방법들이 제안되었습니다. 그러나 이러한 방법들은 거의 모두 본질적으로 손실적(lossy)입니다. 짧은 출력에 대해서는 정확도 저하가 미미할지라도, 더 많은 토큰이 디코딩될수록 출력값이 전체 KV 캐시(full-KV-cache) 출력값과 점점 더 멀어지며, 이는 코드 생성(code generation) 및 도구 호출(tool calling)에서 치명적인 실패로 이어집니다.

우리는 전체 KV 캐시 디코딩과 동일한 출력을 보장하면서도, 다양한 KV 캐시 압축 알고리즘의 높은 디코딩 처리량(throughput)을 대부분 유지하는 최초의 추론 프레임워크인 VeriCache를 제시합니다. VeriCache는 압축된 KV 캐시를 사용하여 토큰을 초안 작성(draft)한 다음, 이를 전체 KV 캐시와 대조하여 검증(verify)합니다. 이것이 단순히 투기적 디코딩(speculative decoding)처럼 보일 수 있지만, VeriCache가 작동하기 위해서는 핵심적인 시스템 과제를 해결해야 합니다. 즉, 전체 KV 캐시를 GPU 메모리 외부에 유지하면서 검증을 위해 이를 스와핑(swapping)할 때 발생하는 오버헤드를 최소화하는 것입니다.

이 통찰은 두 가지 측면을 가집니다: (1) 압축된 KV 디코딩은 전체 KV 스와핑과 병렬화될 수 있는데, 이는 하나는 HBM 대역폭 제한(HBM-bandwidth-bound) 문제이고 다른 하나는 PCIe/네트워크 제한(PCIe/network-bound) 문제이기 때문이며, (2) 압축된 KV 캐시는 종종 전체 KV 캐시와 유사한 출력을 생성하므로, 긴 초안 작성 범위(drafting horizon)를 통해 각 전체 KV 스와핑 비용을 분할(amortize)할 수 있다는 점입니다.

VeriCache는 긴 컨텍스트 디코딩(long-context decoding)과 원격 프리픽스 캐싱(remote prefix caching) 모두에 적용 가능하며, 통합된 압축기 인터페이스(compressor interface)를 통해 광범위한 토큰 드롭핑 및 양자화 방법들을 지원하고, 전통적인 투기적 디코딩과 결합할 수 있습니다. 실험 결과에 따르면 VeriCache는 동일한 출력을 생성하면서도 전체 KV 추론보다 최대 4배 더 높은 처리량을 달성합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0