SA-Kura: 확산 샘플링(Diffusion Sampling) 내 국소 결합 Kuramoto Drift를 위한 에너지 효율적 시스톨릭 어레이
요약
확산 샘플링의 효율성을 높이는 Kuramoto drift를 가속하기 위한 전용 시스톨릭 어레이인 SA-Kura를 제안합니다. 기존 CNN 가속기가 처리하기 어려운 비선형 스텐실 연산을 최적화하여 지연 시간과 에너지 소모를 획기적으로 줄였습니다.
핵심 포인트
- Kuramoto drift를 위한 최초의 디지털 시스톨릭 어레이 제안
- 초월 함수 유닛 제거 및 레지스터 수준 재사용을 통한 효율성 확보
- 소프트웨어 실행 대비 지연 시간 193배, 에너지 69.4배 절감
- Jetson Orin Nano CUDA 구현 대비 6.57배 빠른 속도 달성
확산 추론(Diffusion inference)은 엣지 배포(edge deployment) 시 여전히 비용이 많이 들지만, 기존 가속기들은 표준 드리프트(standard drift)가 단순히 사소한 선형 스케일링(linear scaling)에 불과하기 때문에 거의 전적으로 스코어 네트워크(score networks)에만 집중하고 있습니다. Kuramoto orientation diffusion은 이 사소한 드리프트를 국소 결합된 위상 상호작용(locally coupled phase interactions)으로 대체하여 샘플링 효율성을 개선하지만, 새로운 하드웨어 병목 현상을 초래합니다. 즉, 매 역과정(reverse step)마다 평가되는 중심 의존적 비선형 5 x 5 스텐실(stencil)입니다. 이 커널은 기존의 CNN 가속기나 행렬 지향 엔진(matrix-oriented engines)에 매핑하기 어렵습니다. 본 논문에서는 저희가 알고 있는 한, 국소 결합된 Kuramoto drift를 전담하는 최초의 디지털 시스톨릭 어레이(systolic-array) 가속기인 SA-Kura를 제안합니다. 쌍별 사인파 결합(pair-wise sinusoidal coupling)을 중심 위상(center phase)과 독립적인 이웃 누적(neighbor accumulation)으로 재구성한 뒤, 단일 중심 의존적 곱셈-뺄셈 결합(multiply-subtract combination)을 수행함으로써, SA-Kura는 PE(Processing Element) 내의 초월 함수 유닛(transcendental units)을 제거하고 레지스터 수준의 재사용(register-level reuse)을 통한 규칙적인 시스톨릭 실행을 가능하게 합니다. SA-Kura는 합성 가능한 RTL로 구현되었으며, 경량 RISC-V 기반 SoC에 통합되어 FPGA에서 프로토타입으로 제작되었고, 45 nm CMOS 합성 및 전력 분석을 통해 평가되었습니다. 드리프트 커널에 대해서만 동일한 SoC 플랫폼의 프로세서 코어에서 동일한 커널을 소프트웨어로 실행했을 때와 비교하여, SA-Kura는 지연 시간(latency)을 193배, 에너지 소모를 69.4배 각각 줄였습니다. 동일한 커널의 독립형 Jetson Orin Nano CUDA 구현과 비교했을 때, SA-Kura는 6.57배 더 빠르며 픽셀당 약 46.0배 더 낮은 에너지를 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기