MxGLUT: 혼합 정밀도 GEMM을 위한 재구성 가능한 LUT 중심 브로드캐스트 데이터플로우 가속기

대규모 언어 모델 (LLM) 추론은 프리필 (prefill) 및 디코드 (decode) 단계 전반에 걸쳐 효율성이 점차 저하되는 문제를 겪고 있으며, 특히 활성화 값은 FP8로 유지되는 반면 가중치는 저비트 정수로 압축되는 가중치 전용 양자화 (weight-only quantization) 상황에서 더욱 심각합니다. 기존의 LUT 기반 가속기들은 주로 FP8-INT4 연산을 대상으로 하며, 어텐션 (attention) GEMM 연산을 위해 여전히 별도의 부동 소수점 (FP) 데이터패스에 의존하므로 하드웨어 중복과 비통합적 혼합 정밀도 실행을 초래합니다. 또한, 이들의 정적 데이터플로우는 서로 다른 프리필 및 디코드 단계와 잘 맞지 않습니다. 이러한 과제를 해결하기 위해, 우리는 혼합 정밀도 LUT 기반 프로세싱 엘리먼트 (MxLPEs)를 기반으로 구축된 재구성 가능한 LUT 중심 브로드캐스트 (RLB) 데이터플로우 가속기인 MxGLUT를 제안합니다. 통합된 LUT 기반 실행 프레임워크의 안내에 따라, MxGLUT는 전용 FP 곱셈기나 추가적인 FP 데이터패스 없이 단일 LUT 기반 연산 메커니즘 하에 FP8-INT4 및 FP8-FP8 GEMM을 모두 구성하며, 프리필 단계에서는 무거운 부분합 누적 (partial-sum accumulation)을 국부화하고 디코드 단계에서는 가중치 재사용을 활용하는 RLB 데이터플로우를 채택합니다. UMC $28,\mathrm{nm}$ CMOS에서 $200,\mathrm{MHz}$로 합성된 MxGLUT는 FP8-INT4 및 FP8-FP8 모드에서 곱셈기 면적을 각각 최대 $56.92%$ 줄이고, 전력을 각각 최대 $77.07%$ 및 $78.35%$ 절감합니다. 가속기 수준에서 MxGLUT는 $0.492,\mathrm{TFLOPS/mm^2}$의 면적 효율성과 $11.58,\mathrm{TFLOPS/W}$의 에너지 효율을 달성하며, 네이티브 FP8-FP8 지원을 추가하더라도 FP8-INT4 전용인 FIGLUT 베이스라인 대비 면적 및 에너지 효율 감소는 각각 $2.57%$ 및 $3.34%$에 불과합니다. Llama 제품군 전반에 걸쳐 MxGLUT는 최대 $2.16\times$ 및 $1.49\times$의 지연 시간 (latency) 가속을 달성하며, 퍼플렉서티 (perplexity) 증가를 최대 $1.70%$ 이내로 유지하면서 프리필 및 디코드에서 정규화된 에너지를 각각 $0.44\times$ 및 $0.71\times$로 감소시킵니다.

Insights

MxGLUT: 혼합 정밀도 GEMM을 위한 재구성 가능한 LUT 중심 브로드캐스트 데이터플로우 가속기

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때