RQP: FPGA 상의 신경망을 위한 자원 지향적 양자화기 프루닝 (Resource-Oriented Quantiser Pruning)
요약
FPGA 기반 엣지 신경망을 위해 자원 효율성을 극대화하는 새로운 양자화 및 프루닝 방법론인 RQP를 제안합니다. 기존의 단조적인 방식 대신 원샷 프루닝과 양방향 베타 스케줄링을 사용하여 탐색 비용을 획기적으로 줄이면서도 최적의 성능을 달성합니다.
핵심 포인트
- FPGA 환경에 최적화된 자원 지향적 양자화기 프루닝(RQP) 제안
- 기존 HGQ 방식의 단조적이고 계산 집약적인 한계 극복
- 양방향 베타 스케줄링을 통한 정밀한 파레토 프런티어 스캔 가능
- 표준 워크플로우 대비 탐색 비용을 최대 20.58배 절감
고세밀도 양자화 (High granularity quantisation, HGQ)는 가중치 수준의 양자화 (weight-level quantisation) 및 프루닝 (pruning)을 활용하여 자원 효율적인 신경망 가속기를 설계하며, 정확도와 하드웨어 활용도 사이의 매력적인 트레이드오프 (trade-off)를 달성합니다. HGQ는 특히 FPGA 기반의 엣지 (edge) 신경망 애플리케이션에 매우 적합합니다. 표준 HGQ 워크플로우는 고정밀 모델에서 시작하여 파레토 프런티어 (Pareto frontier)를 개략적으로 나타내기 위해 경사 기반 최적화 (gradient-based optimisation)의 안내를 받아 점진적으로 비트 폭 (bit width)을 줄여나갑니다. 이러한 단조적이고 되돌릴 수 없는 프루닝 과정은 계산 집약적이며, 주어진 자원 수준에 대한 최적의 서브네트워크 (subnetwork)를 간과할 수 있습니다. 우리는 네트워크를 타겟 탐색 공간 (target search space)에 직접 가깝게 가져오는 자원 지향적 원샷 양자화기 프루닝 (resource-oriented one-shot quantiser pruning) 방법을 제안하며, 이후 파레토 프런티어의 더욱 정밀한 스캔을 가능하게 하기 위해 미세 조정 (fine-tuning)을 위한 양방향 베타 스케줄링 (bidirectional beta scheduling)을 사용합니다. 제트 하부 구조 분류 (jet substructure classification, JSC) 작업에서 검증한 결과, 우리의 방법은 표준 HGQ 워크플로우의 단조적 자원 감소 방식과 비교했을 때 탐색 비용을 최대 20.58배까지 줄이면서도, 경쟁력 있는 파레토 프런티어와 최종 네트워크 구성을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기