지속 가능한 FPGA 기반 Vision Transformer 추론을 위한 근사 어텐션 가중치 산출 방식
요약
FPGA 환경에서 Vision Transformer(ViT)의 셀프 어텐션 연산을 효율적으로 수행하기 위한 BRAM-free 근사 어텐션 가중치 산출 방식을 제안합니다. 분산 LUT 패브릭을 활용한 구간 선형 함수로 소프트맥스를 근사하여 자원 소모를 최소화하면서도 높은 정확도를 유지합니다.
핵심 포인트
- BRAM을 사용하지 않는 LUT 기반의 근사 소프트맥스 설계
- 자연 지수 함수 근사를 통해 모델 재보정 없이 어텐션 온도 보존
- Xilinx Zynq-7020 구현 시 1444 LUT 및 77 DSP 사용
- 정확한 소프트맥스 대비 Top-1 오차 0.20% 이내 달성
- 에지 AI 플랫폼을 위한 에너지 효율적인 ViT 추론 가능
Vision Transformer (ViT)는 이미지 영역 전반의 전역적 문맥 (global context)을 포착하기 위해 셀프 어텐션 (self-attention)을 사용함으로써 컴퓨터 비전 분야를 재편했습니다. 이러한 특성 덕분에 재생 에너지 인프라, 산업 품질 관리, 의료 영상, 자율 시스템 센싱과 같은 응용 분야의 에지 (edge) 시각 검사 및 모니터링에 매우 매력적인 모델로 평가받습니다. 그러나 셀프 어텐션의 소프트맥스 (softmax) 단계에서 지수 함수 (exponential) 계산과 정규화 (normalization)가 필요하며, 이는 하드웨어 측면에서 비용이 많이 들기 때문에 소형 FPGA에 ViT를 배포하는 것은 여전히 어려운 과제로 남아 있습니다. 기존 구현 방식은 종종 CORDIC 파이프라인이나 BRAM 기반의 룩업 테이블 (look-up tables)에 의존하여 면적과 전력 소모를 증가시킵니다. 본 논문은 FPGA 기반 ViT 추론을 위한 BRAM-free 근사 어텐션 가중치 산출 유닛을 제안합니다. 제안된 설계는 분산 LUT 패브릭 (distributed LUT fabric)만으로 완전히 구현된 16-세그먼트 구간 선형 함수 (piecewise-linear function)를 사용하여 소프트맥스의 자연 지수 함수를 근사합니다. 밑이 2인 (base-2) 근사 방식과 달리, 자연 지수 함수 공식은 사전 학습된 어텐션 온도 (attention temperature)를 보존하며 모델별 재보정 (recalibration)을 피할 수 있습니다. Xilinx Zynq-7020에 구현된 전체 어텐션 행 코어 (attention-row core)는 1444개의 LUT, 77개의 DSP를 사용하며 BRAM을 전혀 사용하지 않습니다. 또한 하드웨어 정확도 에뮬레이션 결과, ViT 계열 모델에서 정확한 소프트맥스 (exact-softmax) 참조값과 비교했을 때 절대적 top-1 오차가 $0.20%$ 이내임을 보여주었습니다. 이러한 결과는 자원이 제한된 에지 AI (edge-AI) 플랫폼에서 에너지 효율적인 ViT 추론을 위한 제안된 코어의 잠재력을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기