arXiv논문2026. 06. 30. 10:52

DiLaServe: 확산 언어 모델(Diffusion Language Models)을 위한 높은 SLO 달성 서빙 기술

요약

확산 언어 모델(DLM)의 추론 처리량을 높이면서 지연 시간 SLO를 충족하기 위한 클러스터 수준의 서빙 시스템 DiLaServe를 제안합니다. 신뢰도 임계값 조정과 적응형 부하 제어를 통해 품질 저하를 최소화하며 서빙 효율을 극대화합니다.

핵심 포인트

DLM의 병렬 생성 특성을 활용한 고성능 서빙 기술 제안
신뢰도 기반 디노이징을 통한 속도-품질 트레이드오프 최적화
마감 기한 인식 스케줄링 및 적응형 부하 제어 메커니즘 도입
SLO 달성률 최대 56.6%p 향상 및 지연 시간 최대 46% 감소

확산 언어 모델 (Diffusion Language Models, DLMs)은 최근 기존의 자기회귀 (Autoregressive) 언어 모델에 대한 유망한 대안으로 부상했습니다. 각 디노이징 (Denoising) 단계 동안 여러 토큰을 병렬로 생성함으로써, 경쟁력 있는 품질을 유지하면서도 더 높은 추론 처리량 (Inference Throughput)을 제공합니다. 그러나 서빙 시스템에서 지연 시간 SLO (Latency SLOs)를 충족하면서 이러한 처리량 이득을 실현하려면 DLM의 고유한 특성으로 인해 발생하는 과제들을 해결해야 합니다. 여기에는 신뢰도 기반 디노이징 (Confidence-based denoising)으로 인해 발생하는 속도-품질 트레이드오프 (Speed-quality tradeoff)를 탐색하는 것, 변동하는 부하 상황에서 모델 인스턴스 전반에 걸쳐 적절한 병렬화 수준을 선택하는 것, 그리고 단계별로 불균일한 비용을 유발하는 근사 KV 캐싱 (Approximate KV caching) 메커니즘을 조정하는 것이 포함됩니다. 이러한 과제를 해결하기 위해, 우리는 DLM을 위한 클러스터 수준의 서빙 시스템인 DiLaServe를 제안합니다. DiLaServe는 신뢰도 임계값 (Confidence-threshold) 조정을 통해 마감 기한 인식 스케줄링 (Deadline-aware scheduling)과 적응형 부하 제어 (Adaptive load control)를 가능하게 하며, 근사 KV 캐싱으로 인해 발생하는 단계별 이질성 (Step-level heterogeneity)을 명시적으로 모델링하는 동시에 품질 인식 최적화 문제 (Quality-aware optimization problem)를 해결함으로써 클러스터를 동적으로 재구성합니다. 다양한 벤치마크와 실제 트레이스 (Real-world traces)를 통해, DiLaServe는 정확도 저하를 1% 미만으로 유지하면서 SLO 달성률을 최대 56.6%포인트 향상시키고 엔드 투 엔드 (End-to-end) 요청 지연 시간을 최대 46%까지 줄였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

DiLaServe: 확산 언어 모델(Diffusion Language Models)을 위한 높은 SLO 달성 서빙 기술

요약

핵심 포인트

댓글