빠른 긴 문맥 LLM 서빙을 위한 적응형 KV Cache 재사용
요약
긴 문맥 LLM 추론 시 발생하는 TTFT 지연을 해결하기 위해 KV Cache 재사용 시스템인 CacheTune을 제안합니다. 주파수 영역 분석을 통해 핵심 토큰을 식별하고 하드웨어 인식형 최적화를 결합하여 생성 품질 저하 없이 성능을 극대화합니다.
핵심 포인트
- CacheTune은 비접두사 KV Cache 재사용 시 발생하는 품질 저하 문제를 해결함
- 주파수 영역 분석을 통해 의미론적으로 중요한 핵심 KV 쌍을 식별
- 하드웨어 인식형 적응형 재계산을 통해 연산과 I/O 간의 균형 최적화
- TTFT를 최대 4.86배 가속하고 처리량을 최대 6.21배 향상함
긴 문맥(Long-context) 대규모 언어 모델 (LLM) 추론에서, 프리필(prefill) 단계로 인해 발생하는 첫 번째 토큰 생성 시간 (Time-To-First-Token, TTFT) 지연 시간은 대화형 성능과 배포 비용을 제한하는 가장 주요한 병목 현상이 되었습니다. KV Cache 재사용은 중복된 프리필을 줄이는 직접적인 경로를 제공하지만, 전통적인 접두사 캐싱(prefix caching)은 엄격한 접두사(strict-prefix) 시나리오에만 적용됩니다. 접두사가 아닌 설정에서 KV Cache를 직접 재사용하면 청크 간(cross-chunk) 전역 어텐션(global attention) 관계가 깨져 생성 품질이 크게 저하됩니다. 재사용 가능한 KV Cache가 GPU 외부 캐시 풀로 오프로드(offload)될 때, 이기종 하드웨어 계층 간의 I/O 오버헤드는 새로운 TTFT 병목 현상으로 나타납니다. 따라서 효율적인 비접두사(non-prefix) KV Cache 재사용을 위해서는 의미론적 일관성 회복(semantic-consistency recovery)과 연산-I/O 공동 최적화(compute-I/O co-optimization)가 모두 필요합니다. 본 논문은 긴 문맥 LLM 서빙을 위한 주파수 가이드 및 하드웨어 인식형 KV Cache 재사용 시스템인 CacheTune을 제시합니다. CacheTune은 먼저 주파수 영역 분석(frequency-domain analysis)을 통해 오프라인에서 교차 어텐션(cross-attention) 회복에 가장 중요한 KV 쌍을 식별한 다음, 온라인에서 나머지 KV를 재사용하면서 이러한 의미론적 핵심 토큰들만 선택적으로 재계산합니다. 이러한 의미론적 선택을 엔드 투 엔드(end-to-end) 지연 시간 감소로 전환하기 위해, CacheTune은 희소 KV 전송(sparse KV transfer), 멀티 스트림 비동기 중첩(multi-stream asynchronous overlap), 지연된 위치 인코딩 회복(deferred positional-encoding recovery), 그리고 하드웨어 인식형 적응형 재계산 비율 조정(hardware-aware adaptive recomputation-ratio tuning)을 결합하여 이기종 캐시 풀 간의 연산과 데이터 이동의 균형을 맞춥니다. 주요 LLM 및 긴 문맥 작업에 대한 평가 결과, CacheTune은 전체 재계산(full recompute)에 근접한 생성 품질을 유지하면서도 3.72배4.86배의 TTFT 가속과 3.93배6.21배 높은 처리량(throughput)을 달성했습니다. 캐시가 I/O 바운드인 SSD/HDD 저장 장치로 오프로드되는 경우에도, CacheTune은 적응형 재계산을 통해 2.34배~2.36배의 TTFT 가속을 유지합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기