분리형 LLM 서빙을 위한 부하 인지형 프리필 편향(Load-Aware Prefill Deflection) 연구

분리형(Disaggregated) LLM 서빙은 프리필(prefill)과 디코드(decode) 단계를 별도의 GPU 풀에서 실행하여 두 단계가 서로 간섭하는 것을 방지합니다. 실제로 이는 새로운 비대칭성을 초래합니다. 즉, 버스트(bursty)가 발생하고 헤비 테일(heavy-tailed) 특성을 가진 워크로드 하에서는 프리필 노드는 포화되는 반면, 디코드 노드는 연산 자원이 저활용됩니다. 2개의 프리필 노드와 2개의 디코드 노드(2P2D)로 구성된 프로덕션 스타일의 A100 클러스터에서 실험한 결과, 프리필 실행은 P95 첫 토큰 생성 시간(Time-to-First-Token, TTFT)의 2~23%만을 차지한다는 것을 발견했습니다. 나머지 시간은 큐잉(Queuing)과 노드 간 GPU-GPU KV-캐시(KV-cache) 전송으로 인해 발생합니다.

우리는 디코드 노드가 현재 처리 중인 디코드 배치(decode batches)와 교차하여 청크 단위 프리필(chunked-prefill) 단계로서 요청의 프리필 단계를 처리할 수 있게 하는 선제적 프리필 편향 스케줄러(proactive prefill-deflecting scheduler)를 제안합니다. 대기 중인 각 요청에 대해 프리필 노드에서 예상되는 TTFT를 추정하고, 모든 디코드 노드에서 현재 진행 중인 디코드 작업이 토큰 간 시간(Time-Between-Tokens, TBT) SLO를 준수하도록 유지하면서 가장 큰 청크 스케줄을 탐색하며, 디코드 경로가 꼬리 지연 시간(tail latency) 개선에 도움이 될 때 편향(deflect)을 수행합니다. 편향된 요청의 프리필 단계는 디코드 노드 내에서 직접 실행되므로 노드 간 KV 전송이 제거됩니다.

vLLM에 구현되어 DeepSeek-V2-Lite와 프로덕션 스타일의 트레이스(traces)로 평가된 우리의 접근 방식은 요청당 1밀리초 미만의 라우팅 비용으로, 최첨단(state-of-the-art) 분리형 스케줄러 대비 P95 TTFT를 최대 81%까지 줄이고 SLO 달성률을 최대 79%까지 높였습니다.

Insights

분리형 LLM 서빙을 위한 부하 인지형 프리필 편향(Load-Aware Prefill Deflection) 연구

요약

핵심 포인트

댓글

Claude Code가 파일을 다시 읽고 명령 출력을 확인하며 낭비하는 토큰 양을 일주일 동안 측정해 보았습니다. 약 1,050만 개에

Claude Code에서 Grok으로 전환하기 – 동일한 인터페이스, 다른 모델

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화

Claude Code가 파일을 다시 읽고 명령 출력을 확인하며 낭비하는 토큰 양을 일주일 동안 측정해 보았습니다. 약 1,050만 개에

Claude Code에서 Grok으로 전환하기 – 동일한 인터페이스, 다른 모델

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화