본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 16. 11:01

Long-Context LLM 서빙 가속화를 위한 통합 KV 풀링 (Unified KV Pooling)

요약

Long-context LLM 서빙 시 발생하는 KV 캐시 오프로딩의 비효율성을 해결하기 위한 통합 KV 풀링 기술을 제안합니다. 여러 메모리와 SSD를 하나의 논리적 풀로 통합하고 커널 파일 시스템을 우회하여 TTFT를 획기적으로 단축했습니다.

핵심 포인트

  • 기존 KV 캐시 오프로딩의 높은 서빙 지연 시간 문제 분석
  • 여러 호스트 메모리와 SSD를 통합하는 Unified KV Pooling 제안
  • SPDK를 활용해 커널 파일 시스템을 우회하는 KV-passthrough 설계
  • TTFT를 최신 기술 대비 약 4.1배 단축하여 10초 미만 달성
  • 차단된 I/O 시간을 최대 23.2배까지 감소

Long-context LLM 서빙은 KV 캐시 (KV caches)를 호스트 메모리 (host-memory) 및 SSD로 오프로딩 (offloading)하는 것을 필요로 하지만, 기존 메커니즘은 이러한 긴 컨텍스트 (long contexts)를 위해 설계되지 않았습니다. 우리는 긴 컨텍스트에서의 현재 KV 캐싱 (KV caching)에서 상당한 비효율성을 관찰했습니다: 높은 서빙 지연 시간 (serving latency) ~30.7초로, 이는 일반적인 TTFT (Time To First Token) 요구 사항인 10초를 3배 이상 초과합니다. 우리의 심층 분석은 두 가지 주요 원인을 설명합니다: (1) 검색 (retrieval)이 호스트 메모리 및 SSD를 통해 직렬화되어, 다른 호스트 메모리 모듈과 SSD들이 제대로 활용되지 못한다는 점, 그리고 (2) SSD 기반 KV 검색이 실제 장치 액세스 (device access)보다 커널 파일 시스템 (kernel filesystem)에서 시간의 84%를 소비한다는 점입니다. 이러한 문제를 해결하기 위해, 우리는 여러 호스트 메모리 모듈과 SSD를 하나의 논리적 풀 (logical pool)로 통합하고 대역폭 (bandwidth)에 따라 장치 전체에 KV 캐시를 분산시키는 통합 KV 풀링 (unified KV pooling)을 제안합니다. 파일 시스템 오버헤드 (filesystem overhead)를 제거하기 위해, 우리는 커널 파일 시스템을 우회하고 SPDK를 통해 사용자 공간 (user space)에서 SSD에 상주하는 KV 캐시에 직접 액세스하는 KV-passthrough를 설계했습니다. LLaMA 3.1-8B, GPT-OSS-20B, 그리고 Qwen3-30B-A3B에 대한 평가 전반에 걸쳐, 통합 KV 풀링은 긴 컨텍스트에서의 TTFT를 최신 기술 대비 약 4.1배 단축하여 모두 10초 미만으로 만들었습니다. 또한 파일 시스템 오버헤드를 제거함으로써 차단된 I/O (blocked I/O) 시간을 최대 23.2배까지 줄였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0