arXiv논문2026. 05. 26. 11:39

빠른 긴 문맥 LLM 서빙을 위한 적응형 KV Cache 재사용

요약

긴 문맥 LLM 추론 시 발생하는 TTFT 지연을 해결하기 위해 KV Cache 재사용 시스템인 CacheTune을 제안합니다. 주파수 영역 분석을 통해 핵심 토큰을 식별하고 하드웨어 인식형 최적화를 결합하여 생성 품질 저하 없이 성능을 극대화합니다.

핵심 포인트

CacheTune은 비접두사 KV Cache 재사용 시 발생하는 품질 저하 문제를 해결함
주파수 영역 분석을 통해 의미론적으로 중요한 핵심 KV 쌍을 식별
하드웨어 인식형 적응형 재계산을 통해 연산과 I/O 간의 균형 최적화
TTFT를 최대 4.86배 가속하고 처리량을 최대 6.21배 향상함

긴 문맥(Long-context) 대규모 언어 모델 (LLM) 추론에서, 프리필(prefill) 단계로 인해 발생하는 첫 번째 토큰 생성 시간 (Time-To-First-Token, TTFT) 지연 시간은 대화형 성능과 배포 비용을 제한하는 가장 주요한 병목 현상이 되었습니다. KV Cache 재사용은 중복된 프리필을 줄이는 직접적인 경로를 제공하지만, 전통적인 접두사 캐싱(prefix caching)은 엄격한 접두사(strict-prefix) 시나리오에만 적용됩니다. 접두사가 아닌 설정에서 KV Cache를 직접 재사용하면 청크 간(cross-chunk) 전역 어텐션(global attention) 관계가 깨져 생성 품질이 크게 저하됩니다. 재사용 가능한 KV Cache가 GPU 외부 캐시 풀로 오프로드(offload)될 때, 이기종 하드웨어 계층 간의 I/O 오버헤드는 새로운 TTFT 병목 현상으로 나타납니다. 따라서 효율적인 비접두사(non-prefix) KV Cache 재사용을 위해서는 의미론적 일관성 회복(semantic-consistency recovery)과 연산-I/O 공동 최적화(compute-I/O co-optimization)가 모두 필요합니다. 본 논문은 긴 문맥 LLM 서빙을 위한 주파수 가이드 및 하드웨어 인식형 KV Cache 재사용 시스템인 CacheTune을 제시합니다. CacheTune은 먼저 주파수 영역 분석(frequency-domain analysis)을 통해 오프라인에서 교차 어텐션(cross-attention) 회복에 가장 중요한 KV 쌍을 식별한 다음, 온라인에서 나머지 KV를 재사용하면서 이러한 의미론적 핵심 토큰들만 선택적으로 재계산합니다. 이러한 의미론적 선택을 엔드 투 엔드(end-to-end) 지연 시간 감소로 전환하기 위해, CacheTune은 희소 KV 전송(sparse KV transfer), 멀티 스트림 비동기 중첩(multi-stream asynchronous overlap), 지연된 위치 인코딩 회복(deferred positional-encoding recovery), 그리고 하드웨어 인식형 적응형 재계산 비율 조정(hardware-aware adaptive recomputation-ratio tuning)을 결합하여 이기종 캐시 풀 간의 연산과 데이터 이동의 균형을 맞춥니다. 주요 LLM 및 긴 문맥 작업에 대한 평가 결과, CacheTune은 전체 재계산(full recompute)에 근접한 생성 품질을 유지하면서도 3.72배~~4.86배의 TTFT 가속과 3.93배~~6.21배 높은 처리량(throughput)을 달성했습니다. 캐시가 I/O 바운드인 SSD/HDD 저장 장치로 오프로드되는 경우에도, CacheTune은 적응형 재계산을 통해 2.34배~2.36배의 TTFT 가속을 유지합니다.

AI 자동 생성 콘텐츠

원문 바로가기

빠른 긴 문맥 LLM 서빙을 위한 적응형 KV Cache 재사용

요약

핵심 포인트

댓글