arXiv논문2026. 06. 05. 11:54

SET: 효율적인 CUDA Graph 파이프라인을 위한 스트림-이벤트 트리거 기반 스케줄링

요약

GPU의 호스트-디바이스 동기화 지연과 커널 스케줄링 오버헤드를 해결하기 위한 새로운 CUDA 런타임 프레임워크 SET를 제안합니다. 이벤트 체이닝과 워크 스틸링을 활용하여 하드웨어 자원 활용도를 극대화하고 메모리 안전성을 보장합니다.

핵심 포인트

이벤트 체이닝 및 워크 스틸링 기반 멀티 스트림 파이프라인 모델 제안
스트림별 버퍼를 통한 인플라이트 작업의 메모리 안전성 확보
기존 CUDA Graph 대비 1.15~1.44배의 속도 향상 달성
스케줄링 오버헤드를 최대 54%까지 감소

공격적인 커널 최적화(kernel optimizations)와 배치 처리(batch processing)를 수행하더라도, 시스템 처리량(throughput)이 호스트-디바이스 동기화 지연(host-device synchronization delays) 및 커널 스케줄링 오버헤드(kernel scheduling overheads)에 의해 제한되기 때문에 GPU의 정점 성능(peak performance)을 달성하는 것은 여전히 큰 과제로 남아 있습니다. 또한, 기존 방식들은 스케줄링 오버헤드로 인해 연산 코어(compute cores) 및 복사 엔진(copy engines)과 같은 하드웨어 자원을 제대로 활용하지 못하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 동기화 오버헤드와 커널 실행 간의 간극을 최소화하기 위한 태스크 병렬 파이프라인(task-parallel pipelines)용 CUDA 런타임 프레임워크를 제안합니다. 제안된 솔루션은 두 가지 혁신을 결합합니다: (1) 사용 가능한 하드웨어 자원을 완전히 활용하기 위해 이벤트 체이닝(event-chaining) 및 워크 스틸링(work-stealing) 메커니즘을 활용하는 멀티 스트림 태스크 병렬 파이프라인 프로그래밍 모델; (2) 동시에 실행되는 여러 인플라이트 작업(in-flight jobs)에 대한 메모리 안전성(memory safety)을 보장하기 위해 스트림별 버퍼(per-stream buffers)를 갖춘 그래프 기반 실행 흐름. 대표적인 실제 워크로드(real-world workloads)에 대한 광범위한 평가 결과, 최신 CUDA graph 베이스라인과 비교하여 1.15~~1.44배의 속도 향상을 보여주었으며 스케줄링 오버헤드를 18~~54% 감소시켰습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SET: 효율적인 CUDA Graph 파이프라인을 위한 스트림-이벤트 트리거 기반 스케줄링

요약

핵심 포인트

댓글