대규모 언어 모델 서빙을 위한 최신성/빈도 적응형 KV 캐싱 (Recency/Frequency Adaptive KV Caching)
요약
LLM 추론 속도를 높이는 KV 캐싱의 효율성을 개선하기 위해 최근성과 빈도수를 고려한 적응형 캐싱 기술을 제안합니다. 기존 LRU 방식의 한계를 극복하여 다양한 워크로드에서 캐시 적중률을 높이고 토큰 생성 시간을 단축했습니다.
핵심 포인트
- LRU 정책의 캐시 플러싱 문제를 해결하기 위한 적응형 캐싱 도입
- 최근성(Recency)과 빈도(Frequency) 기반의 동적 캐시 공간 할당
- 합성 문서 QA 워크로드에서 캐시 적중률 최대 10.8% 향상
- 첫 번째 토큰 생성 시간(TTFT)을 최대 12.6% 단축
- 배치 추론 및 실제 대화 워크로드에서도 성능 개선 확인
Key-value (KV) 캐싱은 대규모 언어 모델 (Large Language Model, LLM)의 추론 및 생성 속도를 가속화하는 강력한 기술입니다. 추론 워크로드 (Inference workloads)는 규모가 크고 다양하여 효과적으로 캐싱하기 어렵습니다. 기존의 캐시 관리 전략은 캐시 블록을 제거하기 위해 최근 최소 사용 (Least-Recently-Used, LRU) 정책을 채택합니다. 그러나 LRU는 서로 관련 없는 여러 워크로드가 서로의 캐시를 밀어내는 (flushing) 현상을 초래합니다. 이를 해결하기 위해, 우리는 최근에 발생한 KV 블록과 빈번하게 발생하는 KV 블록 사이에서 캐시 공간을 동적으로 할당하는 적응형 캐싱 (Adaptive caching)을 통합합니다. 평가 결과, 합성 문서 질의응답 (Synthetic document question answering) 워크로드에서 단순한 vLLM 대비 KV 캐시 적중률 (Hit rate)을 최대 10.8% 향상시키고 첫 번째 토큰 생성 시간 (Time to first token)을 최대 12.6% 단축했으며, 실제 대화 (Real-world conversation) 워크로드에서는 각각 2.1%와 2.0%를 개선했습니다. 이 방법은 배치 추론 (Batch inference)에도 잘 일반화되며, 다양한 워크로드를 효과적으로 수용하는 동시에 명확한 해석 가능성 (Interpretability)을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기