arXiv논문2026. 05. 04. 19:13

DPU 나 GPU 를 활용한 신경망 추론 가속화: 왜 둘 다 사용해야 할까? Split CNN Inference

요약

본 논문은 에지 디바이스에서 낮은 지연 시간이 요구되는 신경망 추론 가속화를 위해 DPU와 GPU를 결합하여 CNN을 분할 처리하는 'Split CNN Inference' 방법을 제안합니다. 이 방법은 데이터 소스 근처의 DPU가 초기 레이어를 처리하고, 파이프라인 방식으로 비동기적으로 GPU가 나머지 레이어를 처리함으로써 전체 시스템 지연 시간을 크게 줄입니다. 또한, 모델 구조를 자동으로 최적 분할하기 위해 GNN 기반의 분할 지수 예측 방법을 제시하여 높은 정확도와 성능 향상을 입증했습니다.

핵심 포인트

DPU와 GPU를 결합한 'Split CNN Inference' 아키텍처 제안: 에지 디바이스에서 낮은 지연 시간 달성 목표.
데이터 소스 근처의 DPU가 초기 레이어를 처리하고, GPU가 나머지 레이어를 비동기적으로 처리하는 파이프라인 방식 채택.
전통적인 단일 가속기(GPU 또는 DPU) 사용 대비 최대 2.48배 ~ 3.37배의 지연 시간 개선 효과 입증.
CNN 모델을 최적 분할하기 위해 GNN 기반의 자동화된 '분할 지수 예측' 방법론 제시 (96.27% 정확도).

에지 디바이스 (Edge Device) 에서 영상 및 이미지 스트리밍은 저 지연 시간 (Low Latency) 을 요구합니다. 이를 해결하기 위해 신경망 (Neural Networks, NNs) 은 널리 사용되며, 기존 연구는 그래픽 프로세싱 유닛 (Graphics Processing Units, GPUs), 필드 프로그래머블 게이트 어레이 (Field Programmable Gate Arrays, FPGAs), 딥러닝 프로세싱 유닛 (Deep Learning Processing Units, DPUs) 과 같은 단일 하드웨어 유닛으로 가속화하는 데 주력해 왔습니다. 그러나 이러한 유닛을 결합하면 지연 시간을 더 크게 줄일 수 있습니다. 본 논문에서는 DPU 와 GPU 를 사이에 두고 CNN 추론을 분할하는 방법 (Split CNN Inference) 을 제안합니다.

첫 번째 분할은 Versal VCK190 의 AI 엔진 (DPU) 에서 실행되며, 이는 입력 이미지를 처리하는 초기 CNN 레이어를 담당합니다. DPU 는 데이터의 근원 (Source of the Data) 근처에서 첫 번째 분할을 처리합니다. 파이프라인 방식으로 비동기적으로 GPU 는 나머지 레이어를 처리합니다. GPU (NVIDIA RTX 2080) 는 두 번째 분할을 처리하지만, 데이터 소스 (저장장치/카메라) 와 GPU 간의 데이터 전송량을 줄인 상태입니다.

또한 Split Inference 를 위해 필요한 CNN 의 분할을 자동화하기 위한 그래프 신경망 (Graph Neural Network, GNN) 기반의 분할 지수 예측 방법을 제안합니다. LeNet-5, ResNet18/50/101/152, VGG16, MobileNetv2 와 같은 잘 확립된 모델들을 분석했습니다. 결과는 DPU 만 실행하는 경우보다 최대 2.48 배의 지연 시간 개선과 GPU 만 실행하는 경우보다 최대 3.37 배의 지연 시간 개선을 보여줍니다. 학습된 GNN 모델은 적절한 장치 사이에 레이어를 분할하는 데 96.27% 의 정확도를 보입니다.

AI 자동 생성 콘텐츠

원문 바로가기

DPU 나 GPU 를 활용한 신경망 추론 가속화: 왜 둘 다 사용해야 할까? Split CNN Inference

요약

핵심 포인트

댓글