분리형 LLM 서빙을 위한 부하 인지형 프리필 편향(Load-Aware Prefill Deflection) 연구
요약
분리형 LLM 서빙 환경에서 프리필 노드의 포화와 디코드 노드의 저활용 문제를 해결하기 위한 새로운 스케줄링 기법을 제안합니다. 디코드 노드에서 청크 단위 프리필을 수행하는 '부하 인지형 프리필 편향'을 통해 노드 간 KV-캐시 전송 지연을 제거합니다.
핵심 포인트
- 분리형 서빙의 비대칭성(프리필 포화 vs 디코드 저활용) 문제 지적
- 디코드 노드에서 프리필을 수행하는 선제적 편향 스케줄러 제안
- 노드 간 KV-캐시 전송 오버헤드 제거를 통한 지연 시간 단축
- P95 TTFT 최대 81% 감소 및 SLO 달성률 최대 79% 향상
분리형(Disaggregated) LLM 서빙은 프리필(prefill)과 디코드(decode) 단계를 별도의 GPU 풀에서 실행하여 두 단계가 서로 간섭하는 것을 방지합니다. 실제로 이는 새로운 비대칭성을 초래합니다. 즉, 버스트(bursty)가 발생하고 헤비 테일(heavy-tailed) 특성을 가진 워크로드 하에서는 프리필 노드는 포화되는 반면, 디코드 노드는 연산 자원이 저활용됩니다. 2개의 프리필 노드와 2개의 디코드 노드(2P2D)로 구성된 프로덕션 스타일의 A100 클러스터에서 실험한 결과, 프리필 실행은 P95 첫 토큰 생성 시간(Time-to-First-Token, TTFT)의 2~23%만을 차지한다는 것을 발견했습니다. 나머지 시간은 큐잉(Queuing)과 노드 간 GPU-GPU KV-캐시(KV-cache) 전송으로 인해 발생합니다.
우리는 디코드 노드가 현재 처리 중인 디코드 배치(decode batches)와 교차하여 청크 단위 프리필(chunked-prefill) 단계로서 요청의 프리필 단계를 처리할 수 있게 하는 선제적 프리필 편향 스케줄러(proactive prefill-deflecting scheduler)를 제안합니다. 대기 중인 각 요청에 대해 프리필 노드에서 예상되는 TTFT를 추정하고, 모든 디코드 노드에서 현재 진행 중인 디코드 작업이 토큰 간 시간(Time-Between-Tokens, TBT) SLO를 준수하도록 유지하면서 가장 큰 청크 스케줄을 탐색하며, 디코드 경로가 꼬리 지연 시간(tail latency) 개선에 도움이 될 때 편향(deflect)을 수행합니다. 편향된 요청의 프리필 단계는 디코드 노드 내에서 직접 실행되므로 노드 간 KV 전송이 제거됩니다.
vLLM에 구현되어 DeepSeek-V2-Lite와 프로덕션 스타일의 트레이스(traces)로 평가된 우리의 접근 방식은 요청당 1밀리초 미만의 라우팅 비용으로, 최첨단(state-of-the-art) 분리형 스케줄러 대비 P95 TTFT를 최대 81%까지 줄이고 SLO 달성률을 최대 79%까지 높였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기