arXiv논문2026. 04. 28. 05:01

HGQ-LUT: DNN 추론을 위한 빠른 LUT-Aware 학습 및 효율적인 아키텍처

요약

HGQ-LUT는 LUT(루크업 테이블) 기반 신경망의 학습 및 하드웨어 구현 문제를 해결하는 새로운 접근법입니다. 이 방법은 최첨단 하드웨어 효율성을 유지하면서도 GPU에서의 학습 속도를 100배 이상 가속화합니다. HGQ-LUT는 규칙적이고 가속기 친화적인 레이어를 도입하고, 자동화된 비트 정밀도 탐색 및 통합 설계 워크플로우를 제공하여 LUT 기반 DNN을 실제 배포 환경에 실용적으로 적용할 수 있게 합니다.

핵심 포인트

HGQ-LUT는 기존의 느리고 복잡했던 LUT-Aware 학습(LAT) 과정을 획기적으로 개선했습니다.
학습 속도를 100배 이상 가속화하여 연구 및 개발 효율성을 높였습니다.
자동 요소별 이질적 양자화와 리소스 서베이트를 통해 수동 튜닝 없이 최적의 정확도-리소스 트레이드오프를 찾을 수 있습니다.
통합된 오픈소스 툴체인을 제공하여 LUT 블록과 기존 산술 블록이 혼합된 하이브리드 아키텍처 설계 및 검증을 가능하게 합니다.

루크업 테이블 (LUT) 기반 신경망은 산술 연산을 논리 프라임티브에 직접 매핑함으로써 FPGA 에서 초저 지연 시간과 탁월한 하드웨어 효율성을 제공할 수 있습니다. 그러나 최첨단 LUT-Aware 학습 (LAT) 접근법은 실제 적용에서 사용하기 어렵습니다: 기존 네트워크보다 학습 속도가 수천 배 느리고, 하드웨어 효율성을 위해 상당한 수동 튜닝이 필요하며, 엔드투엔드 워크플로우가 부재합니다. 본 연구에서는 HGQ-LUT 를 소개합니다. HGQ-LUT 는 https://github.com/calad0i/HGQ2 에 통합된 새로운 LAT 접근법으로, 최첨단 하드웨어 효율성을 달성하면서도 최신 GPU 에서 학습 속도를 100 배 이상 가속화합니다. HGQ-LUT 는 학습 시 규칙적이고 가속기 효율적인 텐서 연산으로 구현된 LUT-Dense 및 LUT-Conv 레이어를 도입하며, 이를 논리 LUT 로 컴파일하여 하드웨어에 적용합니다. 이러한 레이어를 정밀한 요소별 이질적 양자화 (제로 비트 가지치기 포함) 와 LUT-Aware 리소스 서베이트와 결합함으로써, 수동 비트 너비 튜닝 없이 정확도-리소스 트레이드오프를 자동으로 탐색할 수 있습니다. 또한 우리는 HGQ-LUT 를 오픈소스 툴체인에 통합하여, LUT 기반 블록과 기존 산술 블록이 혼합된 하이브리드 아키텍처의 통합 설계, 컴파일 및 비트 정밀도 검증을 가능하게 합니다. 이러한 기능들은 LAT 기반 DNN 들을 실제 세계 배포에 실용적으로 만듭니다. 예를 들어 CERN 대형 강입자 충돌기 (LHC) 의 실험과 같은 분야에서 활용될 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

HGQ-LUT: DNN 추론을 위한 빠른 LUT-Aware 학습 및 효율적인 아키텍처

요약

핵심 포인트

댓글