X요약2026. 06. 29. 20:19

llm-d: vLLM 및 SGLang과 같은 모델 서버 위에 지능형 라우팅, KV-cache 관리 및 오토스케일링을 추가하는

요약

llm-d는 vLLM 및 SGLang 기반의 Kubernetes 네이티브 추론 서빙 스택입니다. 지능형 라우팅, KV-cache 관리, 오토스케일링 기능을 통해 LLM 추론 성능을 극대화합니다.

핵심 포인트

Prefix-cache-aware 라우팅으로 처리량 3배 및 TTFT 2배 개선
계층적 KV-cache 오프로딩을 통한 멀티턴 워킹 셋 지원
Prefill/decode 분리로 초당 토큰 수 최대 70% 향상
실시간 추론 신호 기반의 SLO-aware 오토스케일링 제공

llm-d는 vLLM 및 SGLang과 같은 모델 서버 (model servers) 위에 지능형 라우팅 (intelligent routing), KV-cache 관리 (KV-cache management), 그리고 오토스케일링 (autoscaling) 기능을 추가하는 Kubernetes 네이티브 (Kubernetes-native) 추론 서빙 스택입니다.

3배 높은 출력 처리량 (output throughput) 및 2배 빠른 TTFT (Time To First Token)를 위한 Prefix-cache-aware 라우팅
더 큰 멀티턴 워킹 셋 (multi-turn working sets)을 위한 CPU 또는 디스크로의 계층적 KV-cache 오프로딩 (Tiered KV-cache offloading)
대규모 모델에서 최대 70% 더 높은 초당 토큰 수 (tokens/sec)를 위한 Prefill/decode 분리 (disaggregation)
실시간 추론 신호에 기반한 SLO-aware 오토스케일링 (SLO-aware autoscaling)

여기에서 확인해 보세요:

[IMG:1]

AI 자동 생성 콘텐츠

원문 바로가기

llm-d: vLLM 및 SGLang과 같은 모델 서버 위에 지능형 라우팅, KV-cache 관리 및 오토스케일링을 추가하는

요약

핵심 포인트

댓글