arXiv논문2026. 06. 10. 11:16

현대 FPGA 장치의 DSP Primitives 내 광대역 정수 데이터패스에서의 산술 패킹 (Arithmetic Packing)

요약

FPGA의 DSP 슬라이스 활용도를 높이기 위해 임의의 비트 너비를 가진 데이터를 동적으로 패킹하는 새로운 산술 패킹 방법을 제안합니다. DSP 내부의 pre-adder를 활용하여 행렬-벡터 곱셈 및 컨볼루션 연산에 최적화된 아키텍처를 구현했습니다.

핵심 포인트

DSP 내부 pre-adder를 활용한 동적 산술 패킹 제안
임의의 비트 너비를 가진 입력 데이터 지원
행렬-벡터 곱셈 및 컨볼루션 최적화 구조 제시
UltraNet 모델 기준 LUT 활용도 21% 감소
DSP당 FPS 36% 향상 달성

심층 신경망 (Deep Neural Networks)은 계산 요구 사항을 줄이기 위해 저정밀도 양자화 (low-precision quantization)를 점점 더 많이 채택하고 있습니다. FPGA는 이질적인 정밀도 (heterogeneous precisions)를 가진 워크로드에 매우 적합하지만, FPGA의 전용 디지털 신호 처리 (DSP) 슬라이스는 고정된 너비의 데이터패스 (datapaths)만을 특징으로 하여 저비트 너비 산술 연산 시 활용도가 현저히 낮습니다. 기존의 접근 방식들은 이미 동일한 광대역 DSP 데이터패스에 여러 값을 패킹 (packing)하는 방식을 도입했지만, 특정 고정 비트 너비만을 지원하거나 DSP 외부의 추가 지원 로직 사용 측면에서 낭비가 발생했습니다. 본 논문은 DSP의 내부 프리-애더 (pre-adder)를 활용하여 임의의 비트 너비를 가진 여러 부호 있는/없는 (un-signed) 입력을 광대역 곱셈기 경로에 동적으로 패킹하는 효율적인 방법을 제안합니다. 이를 바탕으로 우리는 행렬-벡터 곱셈 (matrix-vector multiplications)에 최적화된 구조와 컨볼루션 (convolutions)에 최적화된 구조라는 두 가지 별개의 아키텍처를 제시합니다. 우리의 구현체는 AMD의 FINN 프레임워크에 통합되었습니다. 이러한 최적화를 통해, FINN 레퍼런스와 비교했을 때 UltraNet 모델에 대해 LUT 활용도를 21% 줄이고 DSP당 FPS를 36% 향상시켰습니다.

AI 자동 생성 콘텐츠

원문 바로가기

현대 FPGA 장치의 DSP Primitives 내 광대역 정수 데이터패스에서의 산술 패킹 (Arithmetic Packing)

요약

핵심 포인트

댓글