PoTAcc: A Pipeline for End-to-End Acceleration of Power-of-Two Quantized DNNs
요약
본 논문은 리소스 제약이 있는 에지 장치에서 Power-of-Two (PoT) 양자화된 심층 신경망(DNN)을 효율적으로 가속화하기 위한 오픈 소스 엔드투엔드 파이프라인인 PoTAcc를 제안합니다. PoT양자화는 DNN 크기를 줄이고 곱셈 연산을 비트 시프트로 대체하여 에지 컴퓨팅에 적합하지만, 기존 프레임워크와 하드웨어 지원의 부족으로 배포가 어려웠습니다. PoTAcc는 TFLite 기반으로 CPU 및 커스텀 FPGA 가속기를 아우르는 이종 플랫폼에서 모델 준비와 배포를 원활하게 하며, 이를 통해 최대 3.6배의 속도 향상과 78%의 에너지 절감을 입증했습니다.
핵심 포인트
- PoT양자화는 DNN을 에지 장치에 최적화하지만, 기존 프레임워크 및 하드웨어 지원이 부족하다.
- PoTAcc는 TFLite 기반으로 CPU와 커스텀 FPGA 가속기를 통합하는 엔드투엔드 파이프라인이다.
- 커스텀 시프트 기반 처리 요소(shift-PE) 가속기 설계를 통해 PoT양자화 DNN의 성능을 극대화할 수 있다.
- 실험 결과, PoTAcc는 CPU만 실행 대비 최대 3.6배의 속도 향상과 78%의 에너지 절감을 달성했다.
Power-of-two (PoT) 양자화는 심층 신경망 (DNN) 의 크기를 크게 줄이고 추론을 위해 곱셈 연산을 비트 시프트 연산으로 대체합니다. 기존 연구는 이미지 분류와 같은 작업에서 PoT-양자화 DNN 가 정확도를 유지할 수 있음을 보여주었지만, 리소스 제약이 있는 에지 장치에서의 성능은 여전히 충분히 이해되지 않았습니다. 일반적인 목적의 에지 CPU 와 GPU 는 비트 시프트 연산을 위한 최적화된 백엔드를 제공하지 않지만, 전용 시프트 기반 처리 요소를 구현하는 커스텀 하드웨어 가속기는 PoT 양자화를 더 잘 활용할 수 있습니다. 그러나 기존 추론 프레임워크에서의 지원이 제한되어 있어 PoT-양자화 모델을 이러한 가속기에 배포하는 것은 도전적입니다. 또한, 다양한 PoT 양자화 전략이 전체 추론 중 하드웨어 설계, 성능 및 에너지 효율에 미치는 영향은 체계적으로 탐구되지 않았습니다. 이러한 문제를 해결하기 위해, 우리는 리소스 제약이 있는 에지 장치에서 PoT-양자화 DNN 를 가속화하고 평가하는 오픈 소인 end-to-end 파이프라인인 PoTAcc 을 제안합니다. PoTAcc 은 TensorFlow Lite (TFLite) 를 통해 CPU 만 시스템과 커스텀 가속기와 함께 CPU-FPGA 하이브리드 시스템을 포함한 이종 플랫폼을 가로지르는 PoT-양자화 모델의 원활한 준비와 배포를 가능하게 합니다. 우리는 세 가지 PoT 양자화 방법을 위해 시프트 기반 처리 요소 (shift-PE) 가속기를 설계하고 두 FPGA 플랫폼에 구현했습니다. 우리는 CNN 과 Transformer 기반 아키텍처를 포함한 다양한 모델에서 정확도, 성능, 에너지 효율 및 리소스 활용도를 평가했습니다. 결과는 PYNQ-Z2 와 Kria 보드에서 PoT-양자화 DNN 에 대해 CPU 가속기 설계가 CPU 만 실행에 비해 최대 3.6 배의 속도 향상과 78% 의 에너지 절감을 달성함을 보여줍니다. 코드는 https://github.com/gicLAB/PoTAcc 에서 공개적으로 출시될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기