GF-DiT: 확산 트랜스포머 서빙을 위한 병렬 처리 스케줄링
요약
본 논문은 이미지 및 비디오 생성의 핵심 아키텍처인 Diffusion Transformers(DiTs)의 효율적인 서빙 문제를 다룹니다. 기존 시스템의 정적 병렬 처리 방식이 DiT 워크로드의 이질성을 반영하지 못해 낮은 GPU 활용률과 서비스 품질 저하를 초래한다고 지적합니다. 이에 따라, 요청에 맞춰 병렬 처리를 동적으로 조정하는 탄성(elastic) 서빙 프레임워크 GF-DiT를 제안하며, 이를 통해 처리량 향상 및 지연 시간 감소 등의 성능 개선을 입증했습니다.
핵심 포인트
- DiTs의 비효율적인 정적 병렬 처리는 낮은 GPU 활용률을 초래함.
- GF-DiT는 워크로드에 따라 병렬 처리를 동적으로 조정하는 탄성 서빙을 제공함.
- 비동기 실행 추상화와 그룹 프리 콜렉티브를 도입하여 온라인 GPU 재할당이 가능해짐.
- 실험 결과, 처리량은 최대 6.01배 향상되고 지연 시간은 최대 95% 감소함.
확산 트랜스포머(Diffusion Transformers, DiTs)는 이미지 및 비디오 생성의 지배적인 아키텍처가 되었으며, 효율적인 DiT 서빙에 대한 수요를 증가시키고 있습니다. 기존 시스템들은 각 요청에 그 수명 주기 전체 동안 고정된 병렬 구성을 할당합니다. 그러나 DiT 워크로드는 요청, 실행 단계 및 시스템 조건 전반에 걸쳐 상당한 이질성(heterogeneity)을 보이며, 이는 정적 병렬 처리를 비효율적으로 만들고 종종 낮은 GPU 활용률과 저하된 서비스 품질을 초래합니다. 본 논문은 DiT 서빙이 GPU 병렬 처리를 일급 스케줄링 가능한 자원으로 다루어야 한다고 주장합니다. 우리는 워크로드 요구 사항 및 서비스 목표에 따라 실행 중인 요청의 병렬 처리를 동적으로 조정하는 탄성(elastic) DiT 서빙을 위한 정책 프로그래밍 가능한 런타임, GF-DiT를 제시합니다. GF-DiT는 요청을 독립적으로 스케줄링 가능한 궤적 작업(trajectory tasks)으로 분해하는 비동기 실행 추상화(asynchronous execution abstraction)를 도입하여 온라인 GPU 재할당을 가능하게 합니다. 탄성 병렬 처리를 실용적으로 만들기 위해, GF-DiT는 임의의 실행 그룹의 저오버헤드 온라인 형성 및 재구성을 지원하는 경량 통신 추상화인 그룹 프리 콜렉티브(group-free collectives)를 추가로 제안합니다. 우리는 vLLM-Omni에 GF-DiT를 구현하고 대표적인 이미지 및 비디오 확산 워크로드에서 평가했습니다. 정적 병렬 처리를 사용한 고정 파이프라인 실행과 비교하여, GF-DiT는 처리량(throughput)을 최대 6.01$ imes$ 향상시키고, 평균 지연 시간(mean latency)을 최대 95% 감소시키며, 서비스 수준 목표(SLO) 위반율을 최대 90% 낮추고, 통신 그룹 설정 오버헤드를 778 ms에서 약 60 $μ$s로 줄입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기