AME-PIM: 메모리가 다음 텐서 가속기가 될 수 있을까?
요약
본 연구는 고대역폭 메모리(HBM-PIM)를 활용하여 인공지능 가속기 백엔드로 사용하는 방안을 제시합니다. 기존 HBM-PIM의 제한적인 명령어 세트 문제를 해결하기 위해 RISC-V Attached Matrix Extension (AME)을 의미론적 참조로 사용하여, AME 명령어를 메모리 내 마이크로 커널과 데이터 명령어로 매핑하는 PEP 기반 실행 모델을 제안했습니다. 이 접근 방식은 원본 감축 지원 없이도 요소별 연산, GEMV, GEMM 등의 핵심 행렬 연산을 호스트 개입 및 외부 전송을 최소화하며 PIM 모드에서 효율적으로 수행할 수 있음을 입증했습니다.
핵심 포인트
- HBM-PIM은 데이터 이동 감소를 통해 AI 가속의 잠재력을 제공하지만, 기존 플랫폼은 명령어 세트와 소프트웨어 스택에 제약이 있다.
- RISC-V Attached Matrix Extension (AME)을 활용하여 HBM-PIM을 ISA 레벨의 행렬 가속기 백엔드로 통합하는 새로운 실행 모델(PEP 기반)을 제안했다.
- 전통적인 감축 기능 없이도 메모리 내에서 완전한 축적을 가능하게 하는 '감축 없는 외적 곱 데이터플로우'를 도입하여 범용성을 높였다.
- 실험 결과, 단일 HBM 가상 채널에서 AME 행렬 타일 곱셈이 최대 14.9 GFLOP/s의 성능을 달성하며 PIM 구현의 실현 가능성을 보여주었다.
프로세싱 인 메모리(HBM-PIM) 를 갖춘 고대역폭 메모리 (HBM) 는 메모리 내부에서 계산을 직접 수행함으로써 데이터 이동을 줄일 수 있는 기회를 제공하지만, 현재 상용 플랫폼은 제한된 명령어 세트를 노출하고 특수한 소프트웨어 스택을 요구합니다. 본 연구에서는 RISC-V Attached Matrix Extension (AME) 을 의미론적 참조로 사용하여 HBM-PIM 이 ISA 레벨의 행렬 가속기의 백엔드로 사용될 수 있는지 조사합니다. 우리는 AME 의 요소별(element-wise) 및 행렬 명령어를 메모리 연산의 HBM-PIM 마이크로 커널과 데이터 명령어로 매핑하는 PEP 기반 실행 모델을 제안합니다. SoA HBM-PIM 과 달리, 우리는 원본 감축 (native reduction) 지원이 없더라도 메모리 내에서 완전히 축적 (accumulation) 을 가능하게 하는 감축 없는 외적 곱 데이터플로우 (reduction-free outer-product dataflow) 를 도입합니다. 우리의 접근 방식은 호스트 관여와 칩 외부 전송을 최소화하면서 요소별 연산, GEMV, 및 GEMM 의 엔드투엔드 실행을 PIM 모드에서 지원합니다. 삼성 아쿠아볼트-XL (Samsung Aquabolt-XL) 에서 수행한 실험 평가에 따르면, 단일 HBM 가상의 채널 (pseudo-channel) 에서 AME 행렬 타일 곱셈은 최대 14.9 GFLOP/s (59.4 FLOP/cycle) 의 성능을 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기