arXiv논문2026. 06. 05. 11:54

FQA: 비선형 활성화 함수의 하드웨어 효율적인 구간별 근사를 위한 전공간 양자화 기반 아키텍처

요약

비선형 활성화 함수의 하드웨어 효율적인 구간별 근사를 위한 전공간 양자화 기반 아키텍처(FQA)를 제안합니다. FQA는 양자화 오차를 종합적으로 고려하여 최적 계수 범위를 탐색하며, 기존 방식 대비 면적과 전력 소모를 50% 이상 절감합니다.

핵심 포인트

전공간 양자화를 통해 최적 근사 계수의 편차 최소화
소수점 워드 길이(FWL) 분리를 통한 하드웨어 아키텍처 탐색 최적화
TBW 가속 방법을 통한 구간별 계산 및 탐색 시간 단축
Sigmoid 함수 구현 시 면적 및 전력 소모 50% 이상 절감

본 논문에서는 비선형 활성화 함수 (Nonlinear Activation Functions)의 하드웨어 효율적인 구간별 다항식 근사 (Piecewise Polynomial Approximations, PPAs)를 위한 전공간 양자화 기반 아키텍처 (Full-Space Quantization-Driven Architecture, FQA)를 제안합니다. FQA는 최적 근사 계수 (Optimal Approximation Coefficients)의 편차를 유발하는 소수점 비트 절단 오차 (Fractional-bit Truncation Error)와 양자화 오차 (Quantization Error)를 모두 종합적으로 고려합니다. 결정적으로, FQA는 최적 계수의 전체 범위를 정확하게 결정하고 탐색할 수 있습니다. 제안된 FQA를 바탕으로, 우리는 서로 다른 자원-성능 트레이드오프 (Resource-performance Trade-offs)를 충족하기 위해 두 가지 별도의 하드웨어 구현 방식을 개발했습니다. 또한, 더 우수한 하드웨어 아키텍처 탐색을 가능하게 하기 위해 계산 과정에 포함된 모든 소수점 워드 길이 (Fractional Word Lengths, FWLs)를 분리(Decouple)했습니다. 확장된 양자화 공간으로 인해 증가하는 소프트웨어 계산 시간을 완화하기 위해, 우리는 구간별 계산 및 탐색 과정을 가속화하는 TBW (Target-guided Bisection Window)라는 가속 방법을 설계했습니다. 실험 결과에 따르면, 기존 아키텍처와 비교했을 때 FQA는 최적의 최대 절대 오차 (Maximum Absolute Error, MAE)를 달성하면서도 필요한 구간 (Segments)의 수를 크게 줄일 수 있음을 보여줍니다. Sigmoid 함수에 대한 하드웨어 설계의 경우, 우리의 접근 방식은 최신 PPA 아키텍처와 비교하여 면적 및 전력 소모를 50% 이상 절감했습니다. 마지막으로, 우리는 기존 하드웨어 자원의 활용을 극대화하고 MAE를 최소화하면서 구성 가능한 하드웨어 (Configurable Hardware)에 PPA를 배포하기 위한 완전한 설계 워크플로우를 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FQA: 비선형 활성화 함수의 하드웨어 효율적인 구간별 근사를 위한 전공간 양자화 기반 아키텍처

요약

핵심 포인트

댓글