XtraMAC: An Efficient MAC Architecture for Mixed-Precision LLM Inference on FPGA
요약
본 논문은 대규모 언어 모델(LLMs)의 혼합 정밀도 추론에 최적화된 새로운 MAC 아키텍처인 XtraMAC을 제안합니다. 기존 FPGA 기반 솔루션들이 가진 고정 데이터 타입 및 자원 공유 비효율성 문제를 해결하기 위해, XtraMAC은 단일 데이터 타입 적응형 마이크로 아키텍처 내에서 정수, 부동소수점, 혼합 정밀도 연산을 통합적으로 처리합니다. AMD Xilinx U55c FPGA 테스트 결과, XtraMAC은 기존 대비 높은 컴퓨팅 밀도와 에너지 효율성, 속도 향상을 입증했습니다.
핵심 포인트
- XtraMAC은 LLM의 혼합 정밀도 추론 워크로드를 위해 설계된 새로운 MAC 아키텍처입니다.
- 기존 FPGA 솔루션의 한계(고정 데이터 타입, 자원 비효율성)를 극복하고 모든 데이터 타입을 단일 적응형 마이크로 아키텍처에서 처리합니다.
- XtraMAC은 공유 정수 유효숫자 곱과 경량 부호/지수 처리를 통해 DSP 자원을 효율적으로 공유하여 성능을 극대화합니다.
- 실제 FPGA 테스트 결과, XtraMAC은 컴퓨팅 밀도 향상(1.4-2.0배), 에너지 효율성 및 속도 향상을 달성했습니다.
대규모 언어 모델 (LLMs) 의 혼합 정밀도 양자화 기술의 광범위한 채택은 혼합 데이터 타입과 런타임에 데이터 타입을 전환하며 곱셈-누적 (MAC) 연산을 효율적으로 수행할 수 있는 하드웨어 수요를 창출했습니다. 기존 FPGA 기반 MAC 솔루션은 고정 데이터 타입 설계, 비효율적인 공간 또는 시간 자원 공유, 혼합 정밀도 실행 지원 부족이라는 한계로 인해 부족한 성능을 보입니다. 이러한 한계들은 DSP 리소스의 과소 활용을 초래하여 달성 가능한 병렬성과 처리량을 제한합니다. 본 작업에서는 단일 데이터 타입 적응형 마이크로 아키텍처 내에서 정수, 부동소수점 및 혼합 정밀도 연산을 통합하는 새로운 MAC 아키텍처인 XtraMAC 을 제시합니다. XtraMAC 은 지원되는 모든 MAC 포맷을 공유 정수 유효숫자 곱과 경량 부호 및 지수 처리로 분해하여, 모든 데이터 타입에 대해 동적 오퍼던드 패킹 및 1 의 상수 지연 시간과 시작 간격으로 효율적인 DSP 자원 공유를 가능하게 합니다. AMD Xilinx U55c FPGA 에서 평가한 결과, XtraMAC 은 1.4-2.0 배 높은 컴퓨팅 밀도를 달성하고, 연산당 LUT, FF, DSP 소비량을 27-51% 감소시키며, 대표적 혼합 정밀도 LLM 워크로드에서 최대 1.9 배의 에너지 효율성과 1.2 배의 속도 향상을 제공합니다. XtraMAC 의 구현은 https://github.com/Xtra-Computing/XtraMAC 에서 오픈 소스화되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기