본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 14:22

KVServe: 통신 효율적인 분리형 LLM 서빙을 위한 서비스 인식형 KV 캐시 압축

요약

본 논문은 LLM 프로덕션 환경에서 발생하는 병목 현상을 해결하기 위해 서비스 인식형 및 적응형 KV 통신 압축 프레임워크인 KVServe를 제안합니다. 기존의 정적 KV 압축 방식의 한계를 극복하고자, KVServe는 모듈화된 전략 공간을 통합하고 Bayesian Profiling Engine으로 효율적인 오프라인 탐색을 수행합니다. 또한, 서비스 인식형 온라인 컨트롤러를 통해 실시간 환경 변화에 적응하며, vLLM 통합 테스트 결과 PD 분리 서빙에서 최대 9.13배의 JCT 가속 및 KV 분리 서빙에서 최대 32.8배의 TTFT 감소 효과를 입증했습니다.

핵심 포인트

  • KVServe는 분리형 LLM 서빙 환경을 위한 최초의 서비스 인식형/적응형 KV 통신 압축 프레임워크입니다.
  • 모듈화된 전략 공간과 Bayesian Profiling Engine을 결합하여 오프라인 탐색 효율성을 크게 개선했습니다.
  • 서비스 인식형 온라인 컨트롤러를 통해 실시간으로 프로필을 선택하고 환경 변화에 적응합니다.
  • vLLM 통합 테스트 결과, PD 분리 서빙에서 최대 9.13배의 JCT 가속 및 KV 분리 서빙에서 최대 32.8배의 TTFT 감소 효과를 달성했습니다.

LLM(Large Language Models)은 프로덕션 환경에서 널리 채택되고 있으며, 이는 추론 시스템을 한계까지 밀어붙이고 있습니다. 분리형 LLM 서빙(Disaggregated LLM serving, 예: PD 분리 및 KV 상태 분리)은 확장성과 비용 효율성을 개선하지만, KV를 네트워크 및 스토리지 경계를 넘나드는 명시적인 페이로드(payload)로 변환시켜 KV를 지배적인 엔드-투-엔드(end-to-end) 병목 지점으로 만듭니다. 기존의 KV 압축 방식은 워크로드 혼합, 대역폭, SLO(Service Level Objective)/품질 예산 등 프로덕션 서비스 컨텍스트가 시간에 따라 변함에도 불구하고, 일반적으로 정적인 런타임 설정(static runtime configurations)을 사용합니다. 결과적으로 고정된 선택은 최적의 상태가 아니거나 심지어 지연 시간(latency)을 증가시킬 수 있습니다. 우리는 분리형 LLM 서빙을 위한 최초의 서비스 인식형 및 적응형 KV 통신 압축 프레임워크인 extit{KVServe}를 제시합니다. KVServe는 (1) 새로운 구성 요소와 방법 간 재구성(cross-method recomposition)을 통해 KV 압축을 모듈형 전략 공간(modular strategy space)으로 통합하며, (2) 이 공간을 효율적으로 탐색하고 3D 파레토(Pareto) 후보 집합을 추출하여 오프라인 탐색 오버헤드를 $50 imes$ 줄이는 Bayesian Profiling Engine을 도입하고, (3) 제약 조건 하에서 프로필을 선택하고 오프라인-온라인 불일치를 교정하기 위해 분석적 지연 시간 모델과 경량 밴딧(bandit)을 결합한 서비스 인식형 온라인 컨트롤러(Service-Aware Online Controller)를 배포합니다. vLLM에 통합되어 다양한 데이터셋, 모델, GPU 및 네트워크를 통해 평가된 KVServe는 PD 분리 서빙에서 최대 $9.13 imes$의 JCT(Job Completion Time) 가속을 달성하였으며, KV 분리 서빙에서 최대 $32.8 imes$의 TTFT(Time To First Token) 감소를 달성했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0