본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 19:11

Tempus: Versal AI 에지용 시간 확장성 및 리소스 불변 GEMM 스트리밍 프레임워크

요약

본 기술 기사는 대형 언어 모델(LLMs)의 에지 배포 시 발생하는 컴퓨팅, 메모리, 전력 제약을 해결하기 위해 'Tempus'라는 새로운 GEMM 스트리밍 프레임워크를 제안합니다. Tempus는 AMD Versal AI SoC의 AIE 코어를 고정된 블록으로 사용하고, 데이터 타일링 및 그래프 실행을 통해 공간적 확장 대신 시간적 확장성을 달성하는 것이 핵심입니다. 이 접근 방식은 기존 SOTA 방법론 대비 월등히 높은 시스템 효율성과 리소스 절감 효과를 보여주며, 에지 LLM 추론에 지속 가능하고 확장 가능한 기반을 제공합니다.

핵심 포인트

  • Tempus는 AMD Versal AI SoC의 AIE 코어를 활용하여 GEMM 연산 가속화에 초점을 맞춘 스트리밍 프레임워크이다.
  • 기존 SOTA 방식이 공간적 스케일링(코어 수 증가)을 시도하는 반면, Tempus는 시간적 확장성(데이터 재사용 및 파이프라이닝)을 통해 리소스 제약 환경에서 효율성을 극대화한다.
  • Tempus는 고속 캐스케이드 스트리밍과 데드락 없는 DATAFLOW 프로토콜을 사용하여 전송-컴퓨팅 중첩 및 PLIO 재사용을 최적화한다.
  • 평가 결과, Tempus는 기존 선두 공간적 SOTA 대비 211.2배 높은 시스템 효율성(prominence factor)을 달성하며, 코어/전력/I/O 요구 사항을 크게 절감했다.

대형 언어 모델 (LLMs) 의 스케일링 법칙은 모델 품질이 계산 규모에 따라 향상된다는 것을 확립하지만, 에지 배포는 컴퓨팅, 메모리 및 전력에 대한 엄격한 제약을 부과합니다. 일반 행렬 곱셈 (GEMM) 은 추론 시간의 최대 90% 를 차지하므로, 효율적인 GEMM 가속은 에지 AI 를 위해 필수적입니다. AMD Versal 적응형 SoC 의 적응형 지능 엔진 (AIE) 은 이 작업에 잘 맞지만, 기존 최첨단 (SOTA) 프레임워크는 수백 개의 코어를 통해 작업을 분배하여 공간적 스케일링을 통해 성능을 극대화합니다 -- 이는 물리적 구현 실패, 대역폭 포화 및 과도한 리소스 소비로 인해 리소스가 제한된 에지 SoC 에서 실패합니다. 우리는 AMD Versal AI 에지 SoC 를 위한 리소스 불변 시간적 GEMM 프레임워크인 Tempus 을 제안합니다. 행렬 크기를 통해 하드웨어 리소스를 확장하는 대신, Tempus 은 16 개의 AIE-ML 코어를 고정된 컴퓨팅 블록으로 사용하며, 프로그래머블 로직에서의 반복적인 그래프 실행 및 알고리즘 데이터 타일링과 복제를 통해 확장성을 달성합니다. 고속 캐스케이드 스트리밍은 Initiation Interval (II) 이 1 인 경우 저지연 부분 합 감소를 보장하고, 데드락 없는 DATAFLOW 프로토콜은 전송-컴퓨팅 중첩 및 PLIO 재사용을 극대화합니다. GEMM 워크로드에서 평가한 결과, Tempus 은 총 온칩 전력 10.677 W 에서 607 GOPS 를 달성했습니다. 플랫폼 인식 유틸리티 (PAU) 메트릭을 통해 시스템 수준의 효율성을 특징화함으로써, Tempus 이 선두 공간적 SOTA (ARIES) 보다 211.2 배 높은 prominence factor 를 달성함을 증명했습니다. 또한, 프레임워크는 URAM/DSP 의 0.00% 활용도를 유지하여 22.0 배 코어 절감, 7.1 배 전력 절감 및 I/O 요구 감소 6.3 배를 달성함으로써 에지 LLM 추론을 위한 지속 가능하고 확장 가능한 기반을 확립했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0