Lodestar: 온라인 학습 기반의 LLM 추론 라우터
요약
Lodestar는 분산 GPU 클러스터에서 LLM 추론 효율을 극대화하기 위한 온라인 학습 기반의 요청 라우팅 시스템입니다. 실시간 인스턴스 상태와 요청 특성을 학습하여 TTFT(첫 토큰 생성 시간)를 최소화하며, 기존 vLLM 서빙 스택과 호환됩니다.
핵심 포인트
- 온라인 보상 예측기를 통한 실시간 요청 라우팅 최적화
- 기존 휴리스틱 대비 평균 TTFT 최대 1.41배 개선
- 이기종 클러스터 환경에서 최대 4.42배의 P99 TTFT 성능 향상
- 클라우드 네이티브 설계로 vLLM과 원활한 통합 지원
대규모 언어 모델 (LLM) 추론 작업을 효율적으로 서비스하는 것은 첫 번째 토큰 생성 시간 (TTFT, Time-to-First-Token)과 같은 사용자 체감 지연 시간(latency)과 GPU 활용도 측면 모두에서 매우 중요합니다. 그러나 각 추론 요청을 GPU 인스턴스에 할당하는 LLM 요청 라우팅 (request routing)은 특히 까다롭습니다. 실행 과정이 입력값에 크게 의존하며, 배치 (batching) 및 KV-캐시 (KV-cache) 재사용은 요청 간의 강력한 결합을 생성하고, 지연 시간은 컨텍스트 길이 (context length), 모델/엔진 설정, 그리고 이기종 가속기 (heterogeneous accelerators)에 따라 비선형적으로 반응하기 때문입니다. 그 결과, 단순한 전통적 부하 분산 (load balancing) 알고리즘이나 LLM 추론에 맞춤화된 휴리스틱 (heuristics)조차도 좋은 성능을 달성하는 데 실패합니다.
우리는 분산 GPU 클러스터를 위한 새로운 학습 기반 요청 라우팅 시스템인 Lodestar를 선보입니다. Lodestar는 실시간 인스턴스 상태, 요청 특성, 관찰된 성능을 포함하여 요청 단위로 클러스터의 스냅샷을 지속적으로 수집하며, 주어진 보상(예: TTFT 최소화)을 최대화할 인스턴스로 추론 요청을 라우팅하는 데 사용하는 온라인 보상 예측기 (online reward predictor)를 학습합니다. Lodestar는 클라우드 네이티브 (cloud-native)이며 기존 서빙 스택 (vLLM)과 원활하게 작동합니다. 변화하는 워크로드 및 인프라 조건에 대한 지속적인 온라인 적응을 통해, Lodestar는 퍼블릭 클라우드 GPU 클러스터에서의 실험을 바탕으로 최신 프리픽스 캐시 (prefix cache) 및 부하 인지 휴리스틱 (load-aware heuristic)과 비교했을 때 평균 1.41배 낮은 평균 TTFT와 평균 1.47배 낮은 P99 TTFT를 달성하였으며 (동종 클러스터에서는 최대 2.15x/1.86x, 이기종 클러스터에서는 최대 4.38x/4.42x), 약 5분 이내에 이러한 효율적인 라우팅 전략을 학습합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기