TileFuse: AMD NPU에서의 효율적인 양자화된 LLM 추론을 위한 융합 혼합 정밀도 커널 라이브러리

요약

AMD XDNA2 NPU에서 AWQ와 같은 양자화된 LLM을 효율적으로 추론하기 위한 커널 라이브러리 TileFuse를 제안합니다. 혼합 정밀도 커널과 데이터플로우 설계를 통해 성능과 에너지 효율을 획기적으로 개선했습니다.

핵심 포인트

AMD XDNA2 NPU를 위한 근접 하드웨어 혼합 정밀도 커널 라이브러리 TileFuse 개발
AWQ 스타일의 W4A16, W8A16 형식을 NPU에 직접 매핑하여 지원
GEMM 성능 최대 121.6%, GEMV 성능 최대 281% 향상 달성
Ryzen AI 노트북 환경에서 프리필링 지연 시간 2배 감소 및 에너지 64.6% 절감

온디바이스 LLM (Large Language Model) 추론에 대한 수요가 증가함에 따라, 엣지 SoC (System on Chip)는 제한된 전력 및 열 예산 하에서 성능과 에너지 효율을 개선하기 위해 NPU (Neural Processing Unit)를 점점 더 많이 통합하고 있습니다. 그러나 현재의 클라이언트 NPU에서 실제 LLM을 배포하는 것은 여전히 어렵습니다. AWQ와 같이 널리 사용되는 양자화 (Quantization) 형식들이 기존의 많은 NPU 소프트웨어 스택에 깔끔하게 매핑되지 않기 때문이며, 이러한 스택들은 종종 독점적이고 낮은 수준의 제어 (Low-level control)를 제한적으로 제공합니다. 본 연구에서는 양자화된 LLM 추론의 트랜스포머 (Transformer) 선형 레이어 (Linear layers)를 대상으로 하는 AMD XDNA2 NPU용 근접 하드웨어 (Close-to-metal) 혼합 정밀도 (Mixed-precision) 커널 라이브러리인 \textit{TileFuse}를 제시합니다. TileFuse는 모델이 NPU 전용 양자화 방식에 맞춰 재구성되도록 강제하는 대신, AWQ 스타일의 W4A16 및 W8A16과 같은 실용적인 저비트 (Low-bit) 형식을 XDNA2에 직접 가져옵니다. TileFuse는 가중치 레이아웃 (Weight layout), 메타데이터 배치 (Metadata placement), 혼합 정밀도 마이크로커널 (Mixed-precision microkernels), 그리고 어레이 수준의 데이터플로우 (Array-level dataflow)를 공동 설계합니다. 구체적으로, 이는 언패킹 (Unpacking), 역양자화 (Dequantization), 그리고 GEMM/GEMV 실행을 단일 커널 흐름으로 융합하고, 최대 32K의 GEMM 차원을 지원하는 인터리브드 프리타일링 (Interleaved pre-tiling) 레이아웃을 도입하며, 전체 4x8 AIE 어레이를 활용하도록 GEMV 데이터플로우를 재설계합니다. 커널 수준 평가 전반에 걸쳐, TileFuse는 풀 정밀도 (Full-precision) 베이스라인 대비 GEMM에서는 최대 121.6%, GEMV에서는 281%의 성능 향상을 보여주었으며, GEMM에서 강력한 iGPU 베이스라인 대비 2배 이상의 성능 및 에너지 효율 이득을 제공합니다. Ryzen AI 노트북에서의 엔드 투 엔드 (End-to-end) LLM 실험에서, TileFuse는 프리필링 (Prefilling) 지연 시간을 최대 2.0배 낮추고 에너지 소비를 64.6% 이상 절감했습니다. 이러한 결과들을 종합하면, XDNA2가 AWQ 스타일의 엣지 LLM 추론을 위한 실용적인 대상임을 보여주며, 기성 양자화 방식에 대한 네이티브 NPU 지원이 실제 클라이언트 배포에서 NPU를 실질적으로 더 유용하게 만들 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

TileFuse: AMD NPU에서의 효율적인 양자화된 LLM 추론을 위한 융합 혼합 정밀도 커널 라이브러리

요약

핵심 포인트

댓글