arXiv논문2026. 05. 26. 11:39

SA-Kura: 확산 샘플링(Diffusion Sampling) 내 국소 결합 Kuramoto Drift를 위한 에너지 효율적 시스톨릭 어레이

요약

확산 샘플링의 효율성을 높이는 Kuramoto drift를 가속하기 위한 전용 시스톨릭 어레이인 SA-Kura를 제안합니다. 기존 CNN 가속기가 처리하기 어려운 비선형 스텐실 연산을 최적화하여 지연 시간과 에너지 소모를 획기적으로 줄였습니다.

핵심 포인트

Kuramoto drift를 위한 최초의 디지털 시스톨릭 어레이 제안
초월 함수 유닛 제거 및 레지스터 수준 재사용을 통한 효율성 확보
소프트웨어 실행 대비 지연 시간 193배, 에너지 69.4배 절감
Jetson Orin Nano CUDA 구현 대비 6.57배 빠른 속도 달성

확산 추론(Diffusion inference)은 엣지 배포(edge deployment) 시 여전히 비용이 많이 들지만, 기존 가속기들은 표준 드리프트(standard drift)가 단순히 사소한 선형 스케일링(linear scaling)에 불과하기 때문에 거의 전적으로 스코어 네트워크(score networks)에만 집중하고 있습니다. Kuramoto orientation diffusion은 이 사소한 드리프트를 국소 결합된 위상 상호작용(locally coupled phase interactions)으로 대체하여 샘플링 효율성을 개선하지만, 새로운 하드웨어 병목 현상을 초래합니다. 즉, 매 역과정(reverse step)마다 평가되는 중심 의존적 비선형 5 x 5 스텐실(stencil)입니다. 이 커널은 기존의 CNN 가속기나 행렬 지향 엔진(matrix-oriented engines)에 매핑하기 어렵습니다. 본 논문에서는 저희가 알고 있는 한, 국소 결합된 Kuramoto drift를 전담하는 최초의 디지털 시스톨릭 어레이(systolic-array) 가속기인 SA-Kura를 제안합니다. 쌍별 사인파 결합(pair-wise sinusoidal coupling)을 중심 위상(center phase)과 독립적인 이웃 누적(neighbor accumulation)으로 재구성한 뒤, 단일 중심 의존적 곱셈-뺄셈 결합(multiply-subtract combination)을 수행함으로써, SA-Kura는 PE(Processing Element) 내의 초월 함수 유닛(transcendental units)을 제거하고 레지스터 수준의 재사용(register-level reuse)을 통한 규칙적인 시스톨릭 실행을 가능하게 합니다. SA-Kura는 합성 가능한 RTL로 구현되었으며, 경량 RISC-V 기반 SoC에 통합되어 FPGA에서 프로토타입으로 제작되었고, 45 nm CMOS 합성 및 전력 분석을 통해 평가되었습니다. 드리프트 커널에 대해서만 동일한 SoC 플랫폼의 프로세서 코어에서 동일한 커널을 소프트웨어로 실행했을 때와 비교하여, SA-Kura는 지연 시간(latency)을 193배, 에너지 소모를 69.4배 각각 줄였습니다. 동일한 커널의 독립형 Jetson Orin Nano CUDA 구현과 비교했을 때, SA-Kura는 6.57배 더 빠르며 픽셀당 약 46.0배 더 낮은 에너지를 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SA-Kura: 확산 샘플링(Diffusion Sampling) 내 국소 결합 Kuramoto Drift를 위한 에너지 효율적 시스톨릭 어레이

요약

핵심 포인트

댓글