Tempus: A Temporally Scalable Resource-Invariant GEMM Streaming Framework for
요약
본 기술 기사는 대규모 언어 모델(LLMs)의 엣지 배포 환경에서 필수적인 일반 행렬 곱셈(GEMM) 가속을 위한 새로운 프레임워크인 Tempus를 제안합니다. 기존 SOTA 프레임워크들이 공간적 스케일링에 의존하여 리소스 제한된 엣지 SoC에서 실패하는 문제를 해결하기 위해, Tempus는 고정된 계산 블록과 시간 기반의 스트리밍 및 데이터 타일링을 통해 자원 불변(Resource-Invariant)한 확장성을 달성합니다. 이 프레임워크는 AMD Versal AI Edge SoC에서 높은 성능(607 GOPS @ 10.677 W)과 함께 기존 방식 대비 월등히 낮은 전력 및 리소스 활용도를 입증하며, 엣지 LLM 추론을 위한 지속 가능한 기반을 제공합니다.
핵심 포인트
- Tempus는 엣지 SoC의 자원 제약 문제를 해결하기 위해 시간 기반(Temporally Scalable) GEMM 스트리밍 프레임워크를 제시한다.
- 기존 SOTA 방식이 공간적 스케일링에 의존하여 리소스 한계에 부딪히는 반면, Tempus는 고정된 코어 블록과 데이터 타일링을 통해 확장성을 확보한다.
- Tempus는 AMD Versal AI Edge SoC에서 607 GOPS를 달성하며, 기존 방식 대비 전력 효율성과 자원 절약 측면에서 압도적인 성능 우위를 보인다.
- 프레임워크의 핵심 기술로는 Initiation Interval (II) = 1을 보장하는 고속 캐스케이드 스트리밍과 데드락 없는 DATAFLOW 프로토콜이 있다.
대규모 언어 모델 (LLMs) 의 스케일링 법칙은 모델 품질이 계산 규모에 따라 향상된다는 것을 확립하지만, 엣지 배포는 컴퓨팅, 메모리 및 전력에 대한 엄격한 제약을 부과합니다. 일반 행렬 곱셈 (GEMM) 은 추론 시간의 최대 90% 를 차지하므로 효율적인 GEMM 가속은 엣지 AI 에 필수적입니다. AMD Versal 적응형 SoC 에서 사용할 수 있는 적응형 지능 엔진 (Adaptive Intelligent Engines) 은 이 작업에 잘 맞지만, 기존 최첨단 (SOTA) 프레임워크는 성능을 극대화하기 위해 작업을 수백 개의 코어에 분배하여 공간적 스케일링을 수행합니다 -- 이는 물리적 구현 실패, 대역폭 포화 및 과도한 자원 소비로 인해 리소스 제한된 엣지 SoC 에서 실패합니다. 우리는 AMD Versal AI Edge SoC 를 위한 Tempus 라는 리소스 불변 시간 기반 GEMM 프레임워크를 제안합니다. 행렬 크기를 확장하여 하드웨어 자원을 늘리는 대신, Tempus 는 16 개의 AIE-ML 코어로 고정된 계산 블록을 사용하며, 프로그래블 로직에서 반복적인 그래프 실행 및 알고리즘 데이터 타일링과 복제를 통해可扩展성을 달성합니다. 고속 캐스케이드 스트리밍은 Initiation Interval (II) 이 1 인 경우 저지연 부분 합 감소를 보장하고, 데드락 없는 DATAFLOW 프로토콜은 전송-계산 중첩 및 PLIO 재사용을 극대화합니다. GEMM 워크로드에서 평가된 결과, Tempus 는 총 온칩 전력 10.677 W 에서 607 GOPS 를 달성했습니다. Platform-Aware Utility (PAU) 메트릭을 통해 시스템 수준 효율성을 특징화함으로써, Tempus 가 선도적인 공간적 SOTA (ARIES) 보다 211.2 배 높은 prominence factor 를 달성함을 증명했습니다. 또한, 프레임워크는 URAM/DSP 의 0.00% 활용도를 유지하여 22.0 배 코어 절약성, 7.1 배 전력 절약성 및 I/O 요구 감소 6.3 배를 달성하며, 엣지 LLM 추론을 위한 지속 가능한 확장 가능한 기반을 확립했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기