본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 06. 15. 09:18

vllm-doctor — vLLM 추론 서버를 진단하고 모니터링하는 CLI 도구

요약

vllm-doctor는 vLLM 추론 서버의 메트릭을 분석하여 문제를 진단하는 CLI 도구입니다. 큐 압력, TTFT/TPOT, KV 캐시 상태 등을 규칙 기반으로 체크하여 원인과 권장 사항을 제공합니다.

핵심 포인트

  • vLLM 메트릭 기반의 규칙 기반 진단 기능 제공
  • 큐 압력 및 KV 캐시 압력 등 주요 지표 감지
  • 텍스트 및 JSON 형식의 출력 지원
  • --watch 모드를 통한 실시간 모니터링 가능

vllm-doctor는 vLLM 서버의 /metrics 엔드포인트 또는 Prometheus 인스턴스에서 메트릭 (metrics)을 읽어와 규칙 기반 체크 (rule-based checks)를 실행하여 무엇이 잘못되었는지 찾아냅니다. 이 도구는 여러 포드 (pods) 전반에 걸쳐 큐 압력 (queue pressure), 높은 TTFT/TPOT, KV 캐시 압력 (KV cache pressure) 및 기타 규칙들을 감지합니다. 각 발견 사항에는 이를 유발한 메트릭 (metrics), 신뢰 수준 (confidence level), 예상 원인 및 구체적인 권장 사항이 함께 제공됩니다.
vllm-doctor http://localhost:8000/metrics
출력은 사람이 읽을 수 있는 텍스트 또는 자동화를 위한 JSON 형식으로 제공되며, --watch 모드를 통해 지속적으로 새로고침할 수 있습니다.
이 프로젝트는 오픈 소스이며 아직 초기 단계입니다. 누락된 진단에 대한 피드백을 매우 환영합니다.
https://github.com/aminalaee/vllm-doctor
submitted by /u/aminala to r/LocalLLaMA
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0