MxGLUT: 혼합 정밀도 GEMM을 위한 재구성 가능한 LUT 중심 브로드캐스트 데이터플로우 가속기
요약
MxGLUT는 혼합 정밀도 GEMM 연산을 위해 설계된 재구성 가능한 LUT 중심 브로드캐스트 데이터플로우 가속기입니다. 별도의 FP 데이터패스 없이 단일 LUT 메커니즘으로 FP8-INT4 및 FP8-FP8 연산을 통합 지원하여 하드웨어 효율성을 극대화합니다.
핵심 포인트
- 단일 LUT 기반 메커니즘으로 혼합 정밀도(FP8-INT4, FP8-FP8) 통합 지원
- 프리필 및 디코드 단계에 최적화된 재구성 가능한 데이터플로우 채택
- 기존 대비 곱셈기 면적 최대 56.92%, 전력 최대 78.35% 절감
- Llama 모델에서 지연 시간 최대 2.16배 가속 및 에너지 효율 개선
대규모 언어 모델 (LLM) 추론은 프리필 (prefill) 및 디코드 (decode) 단계 전반에 걸쳐 효율성이 점차 저하되는 문제를 겪고 있으며, 특히 활성화 값은 FP8로 유지되는 반면 가중치는 저비트 정수로 압축되는 가중치 전용 양자화 (weight-only quantization) 상황에서 더욱 심각합니다. 기존의 LUT 기반 가속기들은 주로 FP8-INT4 연산을 대상으로 하며, 어텐션 (attention) GEMM 연산을 위해 여전히 별도의 부동 소수점 (FP) 데이터패스에 의존하므로 하드웨어 중복과 비통합적 혼합 정밀도 실행을 초래합니다. 또한, 이들의 정적 데이터플로우는 서로 다른 프리필 및 디코드 단계와 잘 맞지 않습니다. 이러한 과제를 해결하기 위해, 우리는 혼합 정밀도 LUT 기반 프로세싱 엘리먼트 (MxLPEs)를 기반으로 구축된 재구성 가능한 LUT 중심 브로드캐스트 (RLB) 데이터플로우 가속기인 MxGLUT를 제안합니다. 통합된 LUT 기반 실행 프레임워크의 안내에 따라, MxGLUT는 전용 FP 곱셈기나 추가적인 FP 데이터패스 없이 단일 LUT 기반 연산 메커니즘 하에 FP8-INT4 및 FP8-FP8 GEMM을 모두 구성하며, 프리필 단계에서는 무거운 부분합 누적 (partial-sum accumulation)을 국부화하고 디코드 단계에서는 가중치 재사용을 활용하는 RLB 데이터플로우를 채택합니다. UMC $28,\mathrm{nm}$ CMOS에서 $200,\mathrm{MHz}$로 합성된 MxGLUT는 FP8-INT4 및 FP8-FP8 모드에서 곱셈기 면적을 각각 최대 $56.92%$ 줄이고, 전력을 각각 최대 $77.07%$ 및 $78.35%$ 절감합니다. 가속기 수준에서 MxGLUT는 $0.492,\mathrm{TFLOPS/mm^2}$의 면적 효율성과 $11.58,\mathrm{TFLOPS/W}$의 에너지 효율을 달성하며, 네이티브 FP8-FP8 지원을 추가하더라도 FP8-INT4 전용인 FIGLUT 베이스라인 대비 면적 및 에너지 효율 감소는 각각 $2.57%$ 및 $3.34%$에 불과합니다. Llama 제품군 전반에 걸쳐 MxGLUT는 최대 $2.16\times$ 및 $1.49\times$의 지연 시간 (latency) 가속을 달성하며, 퍼플렉서티 (perplexity) 증가를 최대 $1.70%$ 이내로 유지하면서 프리필 및 디코드에서 정규화된 에너지를 각각 $0.44\times$ 및 $0.71\times$로 감소시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기