MIVE: Softmax, LayerNorm 및 RMSNorm 가속을 위한 미니멀리스트 정수 벡터 엔진
요약
LLM 추론 시 병목 현상을 일으키는 LayerNorm, RMSNorm, Softmax 연산을 효율적으로 처리하기 위한 MIVE 아키텍처를 제안합니다. 통합 데이터패스를 통해 하드웨어 공유를 극대화하여 기존 전용 가속기 대비 높은 면적 및 하드웨어 효율성을 달성했습니다.
핵심 포인트
- 비선형 벡터 정규화 연산의 하드웨어 병목 현상 해결
- MIVE: 세 가지 연산을 통합 실행하는 프로그래밍 가능한 엔진
- 공통 계산 패턴 활용을 통한 구현 오버헤드 및 자원 중복 감소
- ASIC 구현 결과, 기존 단독 가속기 대비 우수한 효율성 입증
대규모 언어 모델 (LLMs)의 급격한 성장은 엄격한 추론 지연 시간 (inference latency) 및 전력 제약 조건을 충족할 수 있는 특화된 하드웨어 가속기에 대한 필요성을 심화시켰습니다. 행렬 곱셈 (matrix multiplications)이 전체 계산 워크로드의 대부분을 차지하지만, LayerNorm, RMSNorm 및 Softmax와 같은 비선형 벡터 정규화 연산은 중요한 하드웨어 병목 현상이 될 수 있습니다. 기존의 가속기들은 일반적으로 이러한 기능들을 전용 하드웨어 블록을 사용하여 구현하며, 이는 자원의 중복과 비효율적인 실리콘 활용으로 이어집니다. 이러한 한계를 해결하기 위해, 우리는 통합된 데이터패스 (datapath) 내에서 세 가지 연산을 모두 실행할 수 있는 프로그래밍 가능한 아키텍처인 Minimalist Integer Vector Engine (MIVE)를 제안합니다. LayerNorm, RMSNorm 및 Softmax 전반에 걸친 공통적인 계산 패턴을 활용함으로써, 제안된 벡터 엔진은 구현 오버헤드를 줄이면서 하드웨어 공유를 극대화합니다. 물리적 ASIC 구현 결과에 따르면, MIVE는 포괄적인 다기능 지원을 제공하는 동시에 대부분의 최첨단 단독 가속기들보다 더 높은 면적 및 하드웨어 효율성을 달성함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기