MIVE: Softmax, LayerNorm 및 RMSNorm 가속을 위한 미니멀리스트 정수 벡터 엔진

대규모 언어 모델 (LLMs)의 급격한 성장은 엄격한 추론 지연 시간 (inference latency) 및 전력 제약 조건을 충족할 수 있는 특화된 하드웨어 가속기에 대한 필요성을 심화시켰습니다. 행렬 곱셈 (matrix multiplications)이 전체 계산 워크로드의 대부분을 차지하지만, LayerNorm, RMSNorm 및 Softmax와 같은 비선형 벡터 정규화 연산은 중요한 하드웨어 병목 현상이 될 수 있습니다. 기존의 가속기들은 일반적으로 이러한 기능들을 전용 하드웨어 블록을 사용하여 구현하며, 이는 자원의 중복과 비효율적인 실리콘 활용으로 이어집니다. 이러한 한계를 해결하기 위해, 우리는 통합된 데이터패스 (datapath) 내에서 세 가지 연산을 모두 실행할 수 있는 프로그래밍 가능한 아키텍처인 Minimalist Integer Vector Engine (MIVE)를 제안합니다. LayerNorm, RMSNorm 및 Softmax 전반에 걸친 공통적인 계산 패턴을 활용함으로써, 제안된 벡터 엔진은 구현 오버헤드를 줄이면서 하드웨어 공유를 극대화합니다. 물리적 ASIC 구현 결과에 따르면, MIVE는 포괄적인 다기능 지원을 제공하는 동시에 대부분의 최첨단 단독 가속기들보다 더 높은 면적 및 하드웨어 효율성을 달성함을 보여줍니다.

Insights

MIVE: Softmax, LayerNorm 및 RMSNorm 가속을 위한 미니멀리스트 정수 벡터 엔진

요약

핵심 포인트

댓글

AI가 버튼을 움직일 때: 적응형 UI를 위한 지원 루프 구축하기

정체성(Identity)은 쉬운 절반일 뿐이다

Skales, 바로 사용할 수 있는 AI 데스크톱 에이전트: 일반 소프트웨어 설치처럼 30초 만에 완료, 커맨드 라인(Command Line)

계정 등록 이메일 인증이나 대량 메일 발송 전, 반송 메일 방지를 위해 이메일 주소의 존재 여부를 미리 확인하고 싶다면

AI가 버튼을 움직일 때: 적응형 UI를 위한 지원 루프 구축하기

정체성(Identity)은 쉬운 절반일 뿐이다

Skales, 바로 사용할 수 있는 AI 데스크톱 에이전트: 일반 소프트웨어 설치처럼 30초 만에 완료, 커맨드 라인(Command Line)

계정 등록 이메일 인증이나 대량 메일 발송 전, 반송 메일 방지를 위해 이메일 주소의 존재 여부를 미리 확인하고 싶다면