Raspberry Pi 5 QPU를 위한 소형 ML 런타임 스택 연구
요약
Raspberry Pi 5의 VideoCore VII QPU를 활용한 QPU 우선 ML 런타임 스택을 제안합니다. 타일형 행렬 곱셈과 정수 실행 최적화를 통해 NumPy 및 PyTorch 대비 높은 처리량을 달성했습니다.
핵심 포인트
- VideoCore VII QPU를 위한 전용 ML 런타임 스택 구축
- 정수 커널 최적화로 NumPy 대비 두 자릿수 높은 처리량 달성
- 엣지 디바이스에서의 AI 모델 실행 가속화 가능성 입증
- 타일형 행렬 곱셈 및 GEMM 기반 컨볼루션 구조 적용
우리는 py-videocore7 어셈블리 라이브러리 위에 구축된 Raspberry Pi 5의 VideoCore VII QPU를 위한 QPU 우선(QPU-first) ML 런타임 스택을 제시합니다. 이 시스템은 재사용 가능한 타일형 행렬 곱셈(tiled matrix-multiplication) 기질, GEMM 기반 컨볼루션(convolution), 싱글 헤드 어텐션(single-head attention) 스타일의 코어, 지속성 실행기(persistent executors), 그리고 smul24 명령어를 기반으로 한 정수 실행(integer execution)으로 구성됩니다. 조밀한 정수 커널(dense integer kernels)의 경우, INT32 누적(accumulation)을 사용하는 패킹된 INT16 입력(packed INT16-input)을 통해 NumPy 대비 거의 두 자릿수 높은 처리량(throughput)을 달성했습니다. 다양한 연산(min/max, pooling, convolution, attention)에 걸쳐, 우리는 PyTorch 및 NumPy 모두보다 향상된 성능을 보고합니다. 우리의 예비 결과는 Raspberry QPU가 엣지(edge)에서의 AI 모델 실행을 가속화하기 위한 실용적인 실행 기질(execution substrate) 역할을 할 수 있음을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기