COMPOSE: 재귀 제한 루프 가속을 위한 정적 타이밍 기반의 결합 가능한 재구성 가능 아키텍처
요약
COMPOSE는 재귀 제한 루프 가속을 위해 정적 타이밍 정보를 활용하여 PE(Processing Element)를 동적으로 형성하는 결합 가능한 CGRA 아키텍처입니다. 루프 간 연산을 공간적으로 융합하고 타이밍 슬랙을 활용하여 처리량을 높이고 데이터 이동 오버헤드를 줄입니다.
핵심 포인트
- 정적 타이밍 기반의 PE 동적 형성으로 루프 간 의존성 해결
- 연산 공간 융합 및 슬랙 활용을 통한 저지연 실행 구현
- 출력 레지스터 등록 지연을 통해 레지스터 파일 압박 및 메모리 트래픽 감소
- SOTA 대비 평균 1.6배 성능 향상 및 2.9배 EDP 감소 달성
Coarse-Grained Reconfigurable Architectures (CGRAs, 거친 입도 재구성 가능 아키텍처)는 풍부한 병렬성을 가진 연산 집약적 워크로드(compute-intensive workloads)를 가속화하는 데 적합한 공간 프로그래밍 가능한 기질을 제공합니다. 그러나 전통적인 CGRA 실행 모델은 개별 연산에 정적으로 결합된 경직되고 고정된 크기의 프로세싱 엘리먼트 (PEs, processing elements)에 의존하며, 이는 반복 간 의존성(inter-iteration dependencies)을 직렬화된 스케줄링(serialized scheduling)을 통해 해결하도록 강제합니다. 이는 처리량(throughput)을 제한하고 루프 반복 간의 병렬성을 감소시킵니다. 또한, 정적 실행 스케줄은 연산 사이의 가용 타이밍 슬랙(timing slack)을 활용하지 못하는 경우가 많아, 자원 저활용과 지연 시간(latency) 증가를 초래합니다. 중간 결과값을 빈번하게 레지스터에 저장하는 것은 레지스터 파일(register files)과 로컬 메모리에 대한 압박을 더욱 악화시키며, 특히 전력이나 메모리가 제한된 환경에서 에너지 효율을 저하시키는 데이터 이동 오버헤드(data movement overheads)를 유발합니다. 이러한 과제를 해결하기 위해, 우리는 정적 타이밍 정보에 의해 컴파일 타임에 PE의 동적 형성을 가능하게 하는 결합 가능한 CGRA 아키텍처인 COMPOSE를 소개합니다. 루프 반복 간의 연산들을 공간적으로 융합(spatially fusing)하고 슬랙을 선택적으로 활용함으로써, COMPOSE는 처리량을 제한하는 반복 간 의존성을 해결하고 슬랙 낭비를 줄여 저지연 실행을 가능하게 합니다. 또한, 이 아키텍처는 중간값이 로컬에서 소비 가능한 상태로 유지될 때 출력 레지스터 등록을 지연시킴으로써 레지스터 파일 압박을 줄이며, 이는 중복된 메모리 트래픽을 크게 낮춥니다. 다양한 워크로드 세트에 걸쳐, COMPOSE는 최소한의 면적 및 전력 오버헤드로 최신 기술 (SOTA, state-of-the-art) 대비 평균 1.6배의 성능 향상과 2.9배의 EDP(Energy-Delay Product) 감소를 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기