FusionCIM: 퓨전 기반 컴퓨팅-인-메모리 아키텍처를 통한 LLM 추론 가속화
요약
FusionCIM은 대규모 언어 모델(LLM) 추론 가속화를 위해 오퍼레이터 퓨전 기반의 컴퓨팅-인-메모리(CIM) 아키텍처를 제안합니다. 이 아키텍처는 하이브리드 CIM 파이프라인, 데이터 재사용성을 극대화하는 QO-stationary 데이터플로우, 그리고 패턴 인식 온라인-softmax 메커니즘을 통합하여 효율성을 높였습니다. LLaMA-3 모델 테스트 결과, FusionCIM은 기존 SOTA 대비 에너지 절감 및 속도 향상에서 뛰어난 성능을 보여주었습니다.
핵심 포인트
- FusionCIM은 LLM 추론에 최적화된 오퍼레이터 퓨전 기반의 CIM 아키텍처입니다.
- 하이브리드 CIM 파이프라인을 통해 QKT 계산(IP-CIM)과 PV 집계(OP-CIM)를 효율적으로 결합했습니다.
- QO-stationary 데이터플로우는 반복적인 KV 로딩 및 K-행렬 접근을 줄여 칩 내 데이터 재사용성을 크게 향상시킵니다.
- 패턴 인식 온라인-softmax 메커니즘은 비선형 퓨전의 오버헤드를 효과적으로 감소시킵니다.
- LLaMA-3 모델에서 기존 SOTA 대비 최대 3.86배 에너지 절감 및 1.98배 속도 향상을 달성했습니다.
본 논문에서는 효율적이고 확장 가능한 대규모 언어 모델 (LLM) 추론을 위한 오퍼레이터 퓨전 (operator-fusion) 기반 컴퓨팅-인-메모리 (CIM) 액셀러레이터 아키텍처인 FusionCIM 을 제안합니다. 이 아키텍처에는 세 가지 주요 혁신이 포함되어 있습니다: (1) 곱셈 연산 기반 CIM(IP-CIM) 에서 QKT 계산을, 외적 기반 CIM(OP-CIM) 에서 PV 집계 (PV aggregation) 를 매핑하여 효율적인 행렬 곱셈 퓨전을 가능하게 하는 하이브리드 CIM 파이프라인 아키텍처; (2) 전치 퓨전 하에서 반복적인 KV 로딩을 제거하고 버퍼 내 K-행렬 접근을 줄여 칩 내 데이터 재사용성을 크게 향상시키는 QO-stationary 데이터플로우; (3) 주의력 점수 (attention scores) 의 분포 규칙성을 활용하여 비선형 퓨전의 지수적 리스케일링 오버헤드를 줄이는 패턴 인식 온라인-softmax 메커니즘입니다. LLaMA-3 모델에 대한 실험 결과, FusionCIM 은 기존 최첨단 (SOTA) CIM 기반 설계 대비 최대 3.86 배의 에너지 절감 및 1.98 배의 속도 향상을 달성하며, 시스템 수준에서 29.4 TOPS/W 의 에너지 효율성을 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기