VTA 에서 실행 가능한 임베디드 YOLO-NAS 의 컴파일 및 실행
요약
본 논문은 FPGA 기반 가속기인 VTA(Versatile Tensor Accelerator)를 활용하여 복잡한 CNN 모델을 배포하는 방법을 다룹니다. 기존의 독립형 컴파일러가 가진 한계를 극복하기 위해, 연구진은 VTA 컴파일 체인을 확장하고 자동화함으로써 완전한 CNN 컴파일이 가능하도록 개선했습니다. 이 개선된 시스템은 온칩 메모리를 초과하는 대규모 매개변수를 포함하는 더 큰 CNN까지 지원하며, YOLO-NAS 모델을 성공적으로 컴파일 및 시뮬레이션하여 그 효과를 입증했습니다.
핵심 포인트
- FPGA 기반 가속기(VTA)는 항공우주와 같은 안전 필수 분야의 CNN 배포에 유망한 솔루션을 제공합니다.
- 연구진은 기존 VTA 컴파일러의 한계를 극복하고, 완전 자동화된 CNN 컴파일 체인을 구축했습니다.
- 개선된 시스템은 온칩 메모리 제약을 넘어 대규모 매개변수를 가진 복잡한 CNN 모델을 지원할 수 있습니다.
- YOLO-NAS 객체 감지 모델의 성공적인 컴파일 및 시뮬레이션 실행을 통해 기술적 우수성을 입증했습니다.
복잡한 합성곱 신경망 (Convolutional Neural Networks, CNNs) 을 FPGA 기반 가속기에서 배포하는 것은 항공우주와 같은 안전이 중요한 분야에서 앞으로 나아가는 유망한 방법입니다. 이전 작업에서 우리는 다목적 텐서 가속기 (Versatile Tensor Accelerator, VTA) 를 탐구하여 항공 전자 응용 프로그램에 적합함을 보여주었습니다. 이를 위해 인증을 염두에 둔 초기 독립형 컴파일러를 개발했습니다. 그러나 이 컴파일러에는 여전히 몇 가지 한계가 있으며, 본 논문에서는 이러한 한계를 극복합니다. 기여점은 VTA 컴파일 체인을 확장하고 완전히 자동화하여 완전한 CNN 컴파일을 가능하게 하고 더 큰 CNN 을 지원 (온 칩 메모리에 들어가지 않는 매개변수를 포함) 하는 것입니다. 효과성은 YOLO-NAS 객체 감지 모델의 성공적인 컴파일 및 시뮬레이션 실행을 통해 입증되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기