arXiv논문2026. 05. 04. 19:11

Tempus: Versal AI 에지용 시간 확장성 및 리소스 불변 GEMM 스트리밍 프레임워크

요약

본 기술 기사는 대형 언어 모델(LLMs)의 에지 배포 시 발생하는 컴퓨팅, 메모리, 전력 제약을 해결하기 위해 'Tempus'라는 새로운 GEMM 스트리밍 프레임워크를 제안합니다. Tempus는 AMD Versal AI SoC의 AIE 코어를 고정된 블록으로 사용하고, 데이터 타일링 및 그래프 실행을 통해 공간적 확장 대신 시간적 확장성을 달성하는 것이 핵심입니다. 이 접근 방식은 기존 SOTA 방법론 대비 월등히 높은 시스템 효율성과 리소스 절감 효과를 보여주며, 에지 LLM 추론에 지속 가능하고 확장 가능한 기반을 제공합니다.

핵심 포인트

Tempus는 AMD Versal AI SoC의 AIE 코어를 활용하여 GEMM 연산 가속화에 초점을 맞춘 스트리밍 프레임워크이다.
기존 SOTA 방식이 공간적 스케일링(코어 수 증가)을 시도하는 반면, Tempus는 시간적 확장성(데이터 재사용 및 파이프라이닝)을 통해 리소스 제약 환경에서 효율성을 극대화한다.
Tempus는 고속 캐스케이드 스트리밍과 데드락 없는 DATAFLOW 프로토콜을 사용하여 전송-컴퓨팅 중첩 및 PLIO 재사용을 최적화한다.
평가 결과, Tempus는 기존 선두 공간적 SOTA 대비 211.2배 높은 시스템 효율성(prominence factor)을 달성하며, 코어/전력/I/O 요구 사항을 크게 절감했다.

대형 언어 모델 (LLMs) 의 스케일링 법칙은 모델 품질이 계산 규모에 따라 향상된다는 것을 확립하지만, 에지 배포는 컴퓨팅, 메모리 및 전력에 대한 엄격한 제약을 부과합니다. 일반 행렬 곱셈 (GEMM) 은 추론 시간의 최대 90% 를 차지하므로, 효율적인 GEMM 가속은 에지 AI 를 위해 필수적입니다. AMD Versal 적응형 SoC 의 적응형 지능 엔진 (AIE) 은 이 작업에 잘 맞지만, 기존 최첨단 (SOTA) 프레임워크는 수백 개의 코어를 통해 작업을 분배하여 공간적 스케일링을 통해 성능을 극대화합니다 -- 이는 물리적 구현 실패, 대역폭 포화 및 과도한 리소스 소비로 인해 리소스가 제한된 에지 SoC 에서 실패합니다. 우리는 AMD Versal AI 에지 SoC 를 위한 리소스 불변 시간적 GEMM 프레임워크인 Tempus 을 제안합니다. 행렬 크기를 통해 하드웨어 리소스를 확장하는 대신, Tempus 은 16 개의 AIE-ML 코어를 고정된 컴퓨팅 블록으로 사용하며, 프로그래머블 로직에서의 반복적인 그래프 실행 및 알고리즘 데이터 타일링과 복제를 통해 확장성을 달성합니다. 고속 캐스케이드 스트리밍은 Initiation Interval (II) 이 1 인 경우 저지연 부분 합 감소를 보장하고, 데드락 없는 DATAFLOW 프로토콜은 전송-컴퓨팅 중첩 및 PLIO 재사용을 극대화합니다. GEMM 워크로드에서 평가한 결과, Tempus 은 총 온칩 전력 10.677 W 에서 607 GOPS 를 달성했습니다. 플랫폼 인식 유틸리티 (PAU) 메트릭을 통해 시스템 수준의 효율성을 특징화함으로써, Tempus 이 선두 공간적 SOTA (ARIES) 보다 211.2 배 높은 prominence factor 를 달성함을 증명했습니다. 또한, 프레임워크는 URAM/DSP 의 0.00% 활용도를 유지하여 22.0 배 코어 절감, 7.1 배 전력 절감 및 I/O 요구 감소 6.3 배를 달성함으로써 에지 LLM 추론을 위한 지속 가능하고 확장 가능한 기반을 확립했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Tempus: Versal AI 에지용 시간 확장성 및 리소스 불변 GEMM 스트리밍 프레임워크

요약

핵심 포인트

댓글