arXiv논문2026. 05. 27. 11:58

μ-ORCA: ACAP 상에서 마이크로초(Microsecond) 규모의 심층 신경망 (DNN) 추론 가속 최적화

요약

AMD ACAP 플랫폼에서 마이크로초 단위의 초저지연 DNN 추론을 구현하기 위한 μ-ORCA 프레임워크를 제안합니다. 계층 간 직접 통신과 캐스케이드 연결을 통해 기존 프레임워크의 지연 시간 문제를 해결하고 최적화된 성능을 제공합니다.

핵심 포인트

AMD ACAP 기반 초저지연 DNN 추론 프레임워크 μ-ORCA 제안
AIE 어레이 상의 직접적인 계층 간 통신 및 512-bit 캐스케이드 연결 적용
오버헤드 인식 성능 모델을 통한 설계 공간 탐색 및 지연 시간 최적화
DeepSets 모델 기준 0.93μs의 지연 시간 달성 및 기존 대비 성능 향상

AMD ACAP와 같이 텐서 코어 (Tensor Cores)를 갖춘 이기종 재구성 가능 플랫폼 (Heterogeneous reconfigurable platforms)은 높은 처리량 (Throughput)과 유연성 덕분에 심층 신경망 (DNN) 추론을 위해 점점 더 많이 채택되고 있습니다. 그러나 작은 문제 크기에 대한 마이크로초 (Microsecond) 규모의 추론에 대한 적합성은 여전히 충분히 연구되지 않았습니다. 고에너지 물리학의 제트 태깅 (Jet-tagging) 애플리케이션에서는 비효율적인 온칩 통신 (On-chip communication)과 큰 계층 간 지연 시간 (Inter-layer latency)으로 인해 기존 프레임워크가 1μs의 지연 시간 예산을 충족하지 못하고 있습니다. 더욱이 동기화 (Synchronization) 및 VLIW 프로세서 프롤로그 (VLIW processor prologue)와 같은 하드웨어 오버헤드는 종종 간과되어, 가속기를 올바르게 최적화하는 것을 불가능하게 만듭니다. 이러한 문제를 해결하기 위해, 우리는 초저지연 모델 추론을 위한 맞춤형 이기종 가속기 프레임워크인 μ-ORCA를 제안합니다. μ-ORCA는 공유 메모리 타일 (Shared memory tiles)이나 FPGA 패브릭 (FPGA fabric)을 사용하는 대신, AIE 어레이 상에서 DNN 계층 간의 직접적인 계층 간 통신 (Inter-layer communication)을 가능하게 합니다. 또한, 32-bit/cycle DMA 연결 대신 512-bit/cycle 캐스케이드 연결 (Cascade connection)이 적용됩니다. μ-ORCA는 또한 서로 다른 NN 계층 크기에 적응하는 오버헤드 인식 성능 모델 (Overhead-aware performance model)을 제공하며, 엔드 투 엔드 (End-to-end) 지연 시간을 최적화하기 위해 설계 공간 탐색 (Design space exploration)을 수행합니다. μ-ORCA는 AIE 상에서 bias, ReLU, 그리고 전역 집계 (Global aggregation)를 포함하여 비-MM 커널 (Non-MM kernels)을 가진 MLP 및 DeepSets 모델을 지원합니다. 우리는 AMD ACAP VEK280 플랫폼에서 μ-ORCA를 평가합니다. 실험 결과에 따르면, μ-ORCA는 다양한 최신 ACAP 프레임워크와 비교하여 평균적으로 >1.70$ imes$ 및 >1.83$ imes$의 지연 시간 감소를 달성하였으며, 6개 계층의 실제 DeepSets 모델에 대해 0.93μs의 지연 시간을 달성하여 지연 시간 예산을 충족했습니다. 우리는 https://github.com/arc-research-lab/u-ORCA 에서 μ-ORCA를 오픈 소스로 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

μ-ORCA: ACAP 상에서 마이크로초(Microsecond) 규모의 심층 신경망 (DNN) 추론 가속 최적화

요약

핵심 포인트

댓글