본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 29. 20:19

llm-d: vLLM 및 SGLang과 같은 모델 서버 위에 지능형 라우팅, KV-cache 관리 및 오토스케일링을 추가하는

요약

llm-d는 vLLM 및 SGLang 기반의 Kubernetes 네이티브 추론 서빙 스택입니다. 지능형 라우팅, KV-cache 관리, 오토스케일링 기능을 통해 LLM 추론 성능을 극대화합니다.

핵심 포인트

  • Prefix-cache-aware 라우팅으로 처리량 3배 및 TTFT 2배 개선
  • 계층적 KV-cache 오프로딩을 통한 멀티턴 워킹 셋 지원
  • Prefill/decode 분리로 초당 토큰 수 최대 70% 향상
  • 실시간 추론 신호 기반의 SLO-aware 오토스케일링 제공

llm-d는 vLLM 및 SGLang과 같은 모델 서버 (model servers) 위에 지능형 라우팅 (intelligent routing), KV-cache 관리 (KV-cache management), 그리고 오토스케일링 (autoscaling) 기능을 추가하는 Kubernetes 네이티브 (Kubernetes-native) 추론 서빙 스택입니다.

  • 3배 높은 출력 처리량 (output throughput) 및 2배 빠른 TTFT (Time To First Token)를 위한 Prefix-cache-aware 라우팅
  • 더 큰 멀티턴 워킹 셋 (multi-turn working sets)을 위한 CPU 또는 디스크로의 계층적 KV-cache 오프로딩 (Tiered KV-cache offloading)
  • 대규모 모델에서 최대 70% 더 높은 초당 토큰 수 (tokens/sec)를 위한 Prefill/decode 분리 (disaggregation)
  • 실시간 추론 신호에 기반한 SLO-aware 오토스케일링 (SLO-aware autoscaling)

여기에서 확인해 보세요:

[IMG:1]

AI 자동 생성 콘텐츠

본 콘텐츠는 X @githubprojects (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0