
llm-d: vLLM 및 SGLang과 같은 모델 서버 위에 지능형 라우팅, KV-cache 관리 및 오토스케일링을 추가하는
요약
llm-d는 vLLM 및 SGLang 기반의 Kubernetes 네이티브 추론 서빙 스택입니다. 지능형 라우팅, KV-cache 관리, 오토스케일링 기능을 통해 LLM 추론 성능을 극대화합니다.
핵심 포인트
- Prefix-cache-aware 라우팅으로 처리량 3배 및 TTFT 2배 개선
- 계층적 KV-cache 오프로딩을 통한 멀티턴 워킹 셋 지원
- Prefill/decode 분리로 초당 토큰 수 최대 70% 향상
- 실시간 추론 신호 기반의 SLO-aware 오토스케일링 제공
llm-d는 vLLM 및 SGLang과 같은 모델 서버 (model servers) 위에 지능형 라우팅 (intelligent routing), KV-cache 관리 (KV-cache management), 그리고 오토스케일링 (autoscaling) 기능을 추가하는 Kubernetes 네이티브 (Kubernetes-native) 추론 서빙 스택입니다.
- 3배 높은 출력 처리량 (output throughput) 및 2배 빠른 TTFT (Time To First Token)를 위한 Prefix-cache-aware 라우팅
- 더 큰 멀티턴 워킹 셋 (multi-turn working sets)을 위한 CPU 또는 디스크로의 계층적 KV-cache 오프로딩 (Tiered KV-cache offloading)
- 대규모 모델에서 최대 70% 더 높은 초당 토큰 수 (tokens/sec)를 위한 Prefill/decode 분리 (disaggregation)
- 실시간 추론 신호에 기반한 SLO-aware 오토스케일링 (SLO-aware autoscaling)
여기에서 확인해 보세요:
[IMG:1]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @githubprojects (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기