CGRA의 아키텍처 트레이드오프 평가: Scratchpad Memory 및 이질성이 연산 집약적 커널에 미치는 영향
요약
본 논문은 에지 컴퓨팅 환경에서 CGRA의 설계 요소인 프로세싱 엘리먼트의 이질성과 Scratchpad Memory(SPM)가 연산 성능에 미치는 영향을 분석합니다. FFT, GEMM 및 트랜스포머 워크로드를 통해 데이터 이동 최적화와 에너지 효율성 간의 트레이드오프를 평가합니다.
핵심 포인트
- SPM 도입 시 메모리 트래픽을 최대 8배 감소시켜 데이터 이동 최적화 가능
- 이질적 아키텍처는 데이터 셔플링 작업에서 우수한 에너지 효율성 제공
- 동질적 설계는 면적 오버헤드를 최소화하여 리소스 제약 환경에 유리
- 워크로드의 특성에 따른 CGRA 아키텍처 선택 로드맵 제시
현대적인 에지 컴퓨팅 (edge computing) 애플리케이션, 특히 Vision Transformers (ViTs)와 같은 고처리량 스트림 처리 (high-throughput stream processing)는 엄격한 전력 및 면적 제약 하에서 대규모 공간 병렬성 (spatial parallelism)과 효율적인 데이터 이동을 요구합니다. Coarse-Grained Reconfigurable Architectures (CGRAs)는 성능, 유연성 및 에너지 효율성의 균형을 맞추기 위한 유망한 패러다임을 제공합니다. 본 논문은 두 가지 중요한 CGRA 설계 선택 사항인 프로세싱 엘리먼트 (processing element)의 이질성 (heterogeneity) 및 로컬 데이터 재사용 지원의 영향을 분석합니다. 우리는 두 가지 별개의 구성, 즉 베이스라인 동질적 아키텍처 (baseline homogeneous architecture)와 Scratchpad Memory (SPM)와 함께 특화된 기능 유닛을 통합한 이질적 진화형 (heterogeneous evolution) 구성에 대해 필수적인 연산 커널 (Fast Fourier Transform (FFT) 및 General Matrix Multiply (GEMM))과 엔드 투 엔드 발작 감지 트랜스포머 (end-to-end seizure detection transformer) 워크로드를 함께 평가합니다. 우리의 평가 결과, SPM은 데이터 이동을 크게 최적화하여 메모리가 없는 설계에 비해 메모리 트래픽을 8배 감소시킨다는 것을 보여줍니다. 이질적 아키텍처는 데이터 셔플링 (data-shuffling) 작업에 대해 우수한 에너지 효율성을 달성하는 반면, 동질적 설계는 최신 CGRA 대비 면적 오버헤드를 4.4배에서 8.2배까지 최소화합니다. 또한, 이는 700 MHz 동작 주파수를 유지하여 행렬 연산 중에 이질적 구성보다 최대 5배의 실행 속도 향상을 가능하게 합니다. 궁극적으로, 본 연구는 에지 규모 워크로드의 산술 강도 (arithmetic intensity), 성능 목표 및 리소스 범위 (resource envelopes)에 기반하여 CGRA 패브릭을 선택하기 위한 아키텍처 로드맵을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기