arXiv논문2026. 06. 25. 12:05

FPGA 상에서 MSDF Digit-Serial 산술 연산을 이용한 에너지 효율적인 CNN 가속

요약

FPGA 상에서 MSDF Digit-Serial 산술 연산을 활용하여 U-Net 아키텍처를 에너지 효율적으로 가속하는 MMA(Merged Multiply-Add) 구조를 제안합니다. 통합 파이프라인 설계를 통해 연산 지연을 줄이고 처리량을 높여, 기존 CPU 대비 최대 10배 높은 에너지 효율을 달성했습니다.

핵심 포인트

MSDF 기반 Digit-Serial 연산의 누적 지연 문제를 MMA 아키텍처로 해결
병합 곱셈-가산(MMA)을 통한 스트림라인 지연 및 처리량 향상
CPU 대비 최대 10배 높은 에너지 효율(15.14 GOPS/W) 달성
의료 영상 및 에지 컴퓨팅을 위한 저전력·저지연 하드웨어 가속 제시

본 논문은 이미지 분할 (image segmentation)을 위한 U-Net 아키텍처 내 컨볼루션 레이어 (convolutional layers)를 FPGA 상에 구현하여 에너지 효율적인 하드웨어 가속을 제시합니다. Digit-serial 산술 (digit-serial arithmetic), 특히 최상위 비트 우선 (most-significant-digit-first, MSDF) 기술은 컴팩트한 하드웨어 면적을 제공하지만, 첫 번째 출력 비트를 생성하기 전 초기 지연 시간 (latency)이 발생한다는 단점이 있습니다. 이러한 지연은 곱셈 후 덧셈과 같이 연산이 직렬로 연결된 (cascaded) 구조에서 각 유닛이 고유의 시작 오버헤드를 도입함에 따라 누적됩니다. 이를 극복하기 위해, 본 연구에서는 이러한 연산들을 하나의 통합된 파이프라인 (pipeline)으로 융합하는 병합 곱셈-가산 (merged multiply-add, MMA) 아키텍처를 제안합니다. MMA는 별도의 지연을 발생시키는 대신, 반복당 단일화된 스트림라인 지연 (streamlined latency)을 도입하며, 이는 기존의 직렬 연결된 유닛들의 결합된 지연 시간보다 짧아 결과적으로 향상된 처리량 (throughput)과 효율성을 제공합니다. MMA 유닛은 공간적 입력 깊이 (spatial input depths)를 병렬로 처리하도록 설계되어, 단독 MSDF 기반 설계 및 기존 설계 모두보다 현저히 높은 성능을 달성합니다. 우리는 U-Net을 대상 애플리케이션으로 사용하여 제안된 설계를 평가합니다. CPU보다 낮은 주파수에서 동작함에도 불구하고, FPGA 기반 가속기는 CPU 기반 추론 (inference)의 $1.93$ GOPS/W와 비교하여 최대 $15.14$ GOPS/W에 달하는, 최대 10배 높은 에너지 효율을 달성합니다. 또한 이 설계는 MSDF 기반 FPGA 구현과 비교했을 때 에너지 소비를 약 $9 imes$ 감소시킵니다. 이러한 결과는 의료 영상 및 컴퓨터 비전 분야의 자원 제한적이고 지연 시간에 민감한 에지 (edge) 애플리케이션을 위한 병합 산술 방식의 효용성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FPGA 상에서 MSDF Digit-Serial 산술 연산을 이용한 에너지 효율적인 CNN 가속

요약

핵심 포인트

댓글