MINT: FPGA 상에서 MSDF 자릿수-직렬 산술을 이용한 동적 정밀도 CNN 추론

우리는 왼쪽에서 오른쪽(LR) 산술 방식에 기반한 동적 정밀도 CNN 추론 가속기인 MINT를 선보입니다. LR 산술은 가장 중요한 자릿수부터 먼저 계산(most-significant-digit-first)하며, 유용한 부분 결과(partial results)를 조기에 노출하여 원하는 정밀도에 도달하면 계산을 종료할 수 있도록 합니다. 핵심부에는 각 컨볼루션 윈도우(convolution window)를 계산하기 위해 중복 부호 자릿수 표현(redundant signed-digit representation)을 사용하는 MSDF 직렬-병렬 내적 유닛(inner-product unit)이 있습니다. 예산 제약이 있는 탐욕적 탐색(budget-constrained greedy search)을 통해 모든 컨볼루션 레이어를 INT2에서 INT7까지 프로파일링하며, VGG-16 및 ResNet-18 네트워크에 대해 전체 정확도 손실을 INT8 베이스라인의 2% 이내로 제한하면서 레이어당 가장 낮은 정밀도를 선택합니다. 이 설계는 Xilinx Zynq-7020에서 200 MHz로 합성되었으며, VGG-16의 경우 평균 5.64 비트, ResNet-18의 경우 6.04 비트를 사용합니다. 동시에 VGG-16에서는 19.86 GOPS 및 29.51 GOPS/W를, ResNet-18에서는 18.86 GOPS 및 26.40 GOPS/W를 달성합니다. 이는 INT8 대비 정확도 저하가 각각 1.81% 및 1.96%에 불과하면서도, 처리량(throughput)은 32.6% 및 26.0% 더 높고 에너지 효율(energy efficiency)은 82.10% 및 62.90% 더 높음을 의미합니다. 본 연구에서 고려된 대표적인 기존 FPGA CNN 가속기들과 비교했을 때, MINT는 Zynq-7020 플랫폼 상의 나열된 VGG-16 및 ResNet-18 설계들 중 가장 높은 에너지 효율을 제공합니다.

Insights

MINT: FPGA 상에서 MSDF 자릿수-직렬 산술을 이용한 동적 정밀도 CNN 추론

요약

핵심 포인트

댓글

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법