arXiv논문2026. 05. 25. 12:34

DORA: DNN 가속을 위한 데이터플로우-명령어 오케스트레이션 아키텍처

요약

DORA는 복잡한 DNN 워크로드의 효율성을 높이기 위해 데이터플로우를 명시적으로 제어하는 명령어 기반 오버레이 아키텍처입니다. 새로운 메모리 및 병렬성 관리 메커니즘을 통해 다양한 모델에서도 안정적인 성능을 유지하며, 기존 가속기 대비 최대 5배의 처리량 향상을 입증했습니다.

핵심 포인트

데이터플로우-명령어 오케스트레이션을 통한 미세 제어 가능
AMD Versal 플랫폼 기반 프로토타입으로 성능 검증 완료
워크로드 변화에도 5% 미만의 낮은 성능 변동폭 유지
최첨단 가속기 대비 최대 5배의 처리량 향상 달성
MILP 및 휴리스틱 기반의 컴파일 프레임워크 제공

심층 신경망 (DNN)이 현저하게 더 다양하고 복잡하게 발전함에 따라, 복잡한 DNN 모델에서 높은 성능과 효율성을 달성하는 것은 시급한 과제에 직면해 있습니다. 현대의 DNN 워크로드 (Workload)는 연산 유형, 텐서 형상 (Tensor shapes), 실행 의존성 (Execution dependencies) 측면에서 점점 더 다양해지고 있으며, 이로 인해 모델 전반에 걸쳐 높은 하드웨어 효율성을 유지하는 것이 어려워지고 있습니다. 또한, 범용 가속기 (Generic accelerator)는 다양한 워크로드를 실행할 때 종종 상당한 오버헤드 (Overhead)를 발생시킵니다. 이러한 문제를 해결하기 위해, 우리는 제안된 ISA (Instruction Set Architecture)를 통해 데이터플로우 (Dataflow)를 명시적으로 기술하여 레이어 수준에서 데이터 이동, 연산 및 동기화를 미세하게 제어할 수 있는 명령어 기반 오버레이 아키텍처 (Instruction-based overlay architecture)인 DORA를 제안합니다. 높은 성능을 달성하면서 유연성을 지원하기 위해, DORA는 새로운 온칩 메모리 관리 (On-chip memory management) 및 연산 병렬성 관리 (Computation parallelism management) 메커니즘을 채택합니다. DORA는 2단계 디자인 공간 탐색 (Design space exploration)을 거친 후 주어진 DNN 워크로드에 대한 명령어를 생성할 수 있는 컴파일 프레임워크를 제안합니다. 또한 DORA 프레임워크는 다양한 요구 사항과 제약 조건에 맞는 스케줄 솔루션 (Schedule solution)을 생성하기 위해 MILP (Mixed-Integer Linear Programming) 기반 및 휴리스틱 (Heuristic) 기반 검색 엔진을 통합합니다. 우리는 AMD Versal VCK190 플랫폼에서 DORA를 프로토타입으로 제작하여, 기존의 재구성 가능한 시스템 (Reconfigurable systems)에서의 배포 가능성을 입증했습니다. 실험 결과에 따르면, DORA는 연산 횟수가 최대 6배까지 차이 나는 워크로드에 대해서도 단일 벡터 프로세서 (Vector processor) 상에서 5% 미만의 변동폭을 보이며 안정적인 효율성을 유지합니다. 최첨단 가속기 (State-of-the-art accelerators)와 비교했을 때, DORA는 지속적으로 더 높은 성능을 달성하며 최대 5배의 처리량 (Throughput) 향상을 제공합니다. 휴리스틱 기반 스케줄러는 실제 시간 제약 조건 하에서 최대 90%의 최적성 (Optimality)을 추가로 달성합니다. DORA는 https://github.com/arc-research-lab/DORA.git 에서 오픈 소스로 공개되어 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

DORA: DNN 가속을 위한 데이터플로우-명령어 오케스트레이션 아키텍처

요약

핵심 포인트

댓글