arXiv논문2026. 06. 10. 11:16

Raspberry Pi 5 QPU를 위한 소형 ML 런타임 스택 연구

요약

Raspberry Pi 5의 VideoCore VII QPU를 활용한 QPU 우선 ML 런타임 스택을 제안합니다. 타일형 행렬 곱셈과 정수 실행 최적화를 통해 NumPy 및 PyTorch 대비 높은 처리량을 달성했습니다.

핵심 포인트

VideoCore VII QPU를 위한 전용 ML 런타임 스택 구축
정수 커널 최적화로 NumPy 대비 두 자릿수 높은 처리량 달성
엣지 디바이스에서의 AI 모델 실행 가속화 가능성 입증
타일형 행렬 곱셈 및 GEMM 기반 컨볼루션 구조 적용

우리는 py-videocore7 어셈블리 라이브러리 위에 구축된 Raspberry Pi 5의 VideoCore VII QPU를 위한 QPU 우선(QPU-first) ML 런타임 스택을 제시합니다. 이 시스템은 재사용 가능한 타일형 행렬 곱셈(tiled matrix-multiplication) 기질, GEMM 기반 컨볼루션(convolution), 싱글 헤드 어텐션(single-head attention) 스타일의 코어, 지속성 실행기(persistent executors), 그리고 smul24 명령어를 기반으로 한 정수 실행(integer execution)으로 구성됩니다. 조밀한 정수 커널(dense integer kernels)의 경우, INT32 누적(accumulation)을 사용하는 패킹된 INT16 입력(packed INT16-input)을 통해 NumPy 대비 거의 두 자릿수 높은 처리량(throughput)을 달성했습니다. 다양한 연산(min/max, pooling, convolution, attention)에 걸쳐, 우리는 PyTorch 및 NumPy 모두보다 향상된 성능을 보고합니다. 우리의 예비 결과는 Raspberry QPU가 엣지(edge)에서의 AI 모델 실행을 가속화하기 위한 실용적인 실행 기질(execution substrate) 역할을 할 수 있음을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

Raspberry Pi 5 QPU를 위한 소형 ML 런타임 스택 연구

요약

핵심 포인트

댓글