얼음 깨기: vLLM의 콜드 스타트 지연 시간(Cold Start Latency) 분석
요약
vLLM 추론 엔진의 콜드 스타트 지연 시간을 체계적으로 분석한 연구입니다. 시작 프로세스를 6단계로 세분화하여 CPU 바운드 특성을 규명하고, 지연 시간을 정확히 예측할 수 있는 경량 분석 모델을 제안합니다.
핵심 포인트
- vLLM 시작 프로세스를 6가지 기초 단계로 세분화하여 분석
- 시작 지연 시간이 주로 CPU 바운드 작업임을 입증
- 모델 및 시스템 파라미터에 따른 스케일링 트렌드 확인
- 리소스 계획을 위한 경량 지연 시간 예측 모델 개발
- 분석 도구 및 예측 스크립트 오픈 소스 공개
확장 가능한 추론 서비스(Scalable inference services)가 대중화됨에 따라, 추론 엔진(Inference engine)의 콜드 스타트 지연 시간(Cold start latency)이 중요해지고 있습니다. 오늘날 vLLM은 많은 추론 워크로드(Inference workloads)에서 사실상의 표준(De facto) 추론 엔진으로 진화했습니다. vLLM은 인기가 높지만, 그 복잡성과 급격한 진화로 인해 시작 지연 시간(Startup latency)에 대한 체계적인 연구는 이루어지지 않았습니다. V1 API와 torch.compile의 도입과 같은 주요 아키텍처 혁신에 따라, 본 논문은 vLLM 시작 지연 시간에 대한 최초의 상세한 성능 특성 분석(Performance characterization)을 제시합니다. 우리는 시작 프로세스를 6가지 기초 단계로 세분화하고, 이것이 주로 CPU 바운드(CPU bound)임을 입증합니다. 각 단계는 모델 수준 및 시스템 수준 파라미터(Parameters)에 따라 일관되고 해석 가능한 스케일링 트렌드(Scaling trends)를 보여주며, 이를 통해 지연 시간 소스에 대한 미세한 귀속(Fine-grained attribution)이 가능해집니다. 이러한 통찰을 바탕으로, 우리는 주어진 하드웨어 구성에 대해 vLLM 시작 지연 시간을 정확하게 예측하는 경량 분석 모델(Lightweight analytical model)을 개발하여, 대규모 추론 환경에서의 리소스 계획(Resource planning)을 위한 실행 가능한 지침을 제공합니다. 모든 벤치마킹 데이터셋, 분석 도구 및 예측 스크립트는 https://github.com/upb-cn/vllm-startup-profiler 에서 오픈 소스로 공개되어 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기