arXiv논문2026. 05. 20. 16:32

μ-ORCA: ACAP 상에서 마이크로초 단위의 심층 신경망 (DNN) 추론 가속 최적화

요약

μ-ORCA는 AMD ACAP 플랫폼에서 마이크로초 단위의 초저지연 DNN 추론을 달성하기 위해 설계된 맞춤형 이기종 가속기 프레임워크입니다. 기존 프레임워크가 해결하지 못한 온칩 통신 비효율성과 계층 간 지연 시간을 해결하기 위해 AIE 어레이 상의 직접적인 계층 간 통신과 512-bit/cycle 캐스케이드 연결을 도입했습니다. 실험 결과, DeepSets 모델에서 0.93μs의 지연 시간을 기록하며 기존 프레임워크 대비 탁월한 성능 향상을 입증했습니다.

핵심 포인트

AMD ACAP 플랫폼을 위한 초저지연(Microsecond-level) DNN 추론 최적화 프레임워크 제안
공유 메모리나 FPGA 패브릭 대신 AIE 어레이 내 직접적인 계층 간 통신 및 512-bit/cycle 캐스케이드 연결 활용
하드웨어 오버헤드를 고려한 성능 모델을 통해 엔드 투 엔드 지연 시간 최적화 및 설계 공간 탐색 수행
DeepSets 모델 기준 0.93μs의 지연 시간을 달성하여 고에너지 물리학 등 초저지연 요구 애플리케이션에 적합
MLP 및 DeepSets 모델의 비-MM(Non-MM) 커널 지원 및 오픈 소스 공개

AMD ACAP와 같이 텐서 코어 (Tensor Cores)를 갖춘 이기종 재구성 가능 플랫폼 (Heterogeneous reconfigurable platforms)은 높은 처리량 (Throughput)과 유연성 덕분에 심층 신경망 (DNN) 추론을 위해 점점 더 많이 채택되고 있습니다. 그러나 작은 문제 크기에 대한 마이크로초 (Microsecond) 단위 추론에 대한 적합성은 여전히 충분히 연구되지 않았습니다. 고에너지 물리학 (High-energy physics)의 제트 태깅 (Jet-tagging) 애플리케이션에서는 비효율적인 온칩 통신 (On-chip communication)과 큰 계층 간 지연 시간 (Inter-layer latency)으로 인해 기존 프레임워크가 1μs 지연 시간 예산을 충족하지 못하고 있습니다. 또한, 동기화 (Synchronization) 및 VLIW 프로세서 프롤로그 (Prologue)와 같은 하드웨어 오버헤드는 종종 간과되어 가속기를 올바르게 최적화하는 것을 불가능하게 만듭니다. 이러한 문제를 해결하기 위해, 우리는 초저지연 모델 추론을 위한 맞춤형 이기종 가속기 프레임워크인 μ-ORCA를 제안합니다. μ-ORCA는 공유 메모리 타일 (Shared memory tiles)이나 FPGA 패브릭 (FPGA fabric)을 사용하는 대신, AIE 어레이 상에서 DNN 계층 간의 직접적인 계층 간 통신 (Inter-layer communication)을 가능하게 합니다. 또한, 32-bit/cycle DMA 연결 대신 512-bit/cycle 캐스케이드 연결 (Cascade connection)을 적용합니다. μ-ORCA는 또한 다양한 NN 계층 크기에 적응하는 오버헤드 인지 성능 모델 (Overhead-aware performance model)을 제공하며, 엔드 투 엔드 (End-to-end) 지연 시간을 최적화하기 위해 설계 공간 탐색 (Design space exploration)을 수행합니다. μ-ORCA는 AIE 상에서 bias, ReLU, 그리고 전역 집계 (Global aggregation)를 포함하여 비-MM (Non-MM) 커널을 사용하는 MLP 및 DeepSets 모델을 지원합니다. 우리는 AMD ACAP VEK280 플랫폼에서 μ-ORCA를 평가합니다. 실험 결과, μ-ORCA는 다양한 최신 ACAP 프레임워크와 비교하여 평균적으로 >1.70배 및 >1.83배의 지연 시간 감소를 달성하였으며, 6개 계층의 실제 DeepSets 모델에 대해 0.93μs의 지연 시간을 달성하여 지연 시간 예산을 충족했습니다. 우리는 μ-ORCA를 https://github.com/arc-research-lab/u-ORCA 에서 오픈 소스로 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

μ-ORCA: ACAP 상에서 마이크로초 단위의 심층 신경망 (DNN) 추론 가속 최적화

요약

핵심 포인트

댓글