arXiv논문2026. 06. 16. 12:08

AIA: 비정규화 Knuth-Yao 샘플링 및 코어 간 레지스터 공유를 활용한 근사 추론 가속을 위한 16nm 멀티코어 SoC

요약

확률적 그래픽 모델(PGM)의 MCMC 알고리즘을 가속하기 위한 16nm 멀티코어 SoC인 AIA를 제안합니다. 비정규화 Knuth-Yao 샘플링과 코어 간 레지스터 공유를 통해 기존 가속기 대비 속도와 에너지 효율을 대폭 향상했습니다.

핵심 포인트

16개의 맞춤형 RISC-V 코어로 구성된 2D 메쉬 구조
비정규화 Knuth-Yao 샘플러 및 보간 유닛 탑재
코어 간 직접 데이터 액세스를 위한 레지스터 공유 기능
기존 MRF 가속기 대비 최대 2배 빠른 속도 및 1.45배 높은 에너지 효율

확률적 그래픽 모델 (Probabilistic graphical models, PMs)은 추론 및 의사결정 능력을 통해 머신러닝을 강화하는 데 널리 사용됩니다. PMs에서 근사 추론 (approximate inference)을 수행하기 위해, 샘플링 기반의 마르코프 체인 몬테카를로 (Markov Chain Monte Carlo, MCMC) 알고리즘이 흔히 채택됩니다. 불행히도, MCMC는 연산 집약적이며 병렬로 실행하기 어려워, 현대의 CPU/GPU 플랫폼에서 비효율적인 실행을 초래합니다. 본 논문은 에지 (edge)에서의 의사결정 및 추론을 강화하기 위해 설계된 근사 추론 가속기인 \name{}을 제안합니다. \name{}은 RISC-V 호스트와 PM 추론을 효율적으로 지원하도록 최적화된 16개의 맞춤형 RISC-V 코어로 구성된 2D 메쉬 (2D mesh)로 이루어져 있으며, 각 코어는 (i) 새로운 비정규화 Knuth-Yao 샘플러 및 보간 유닛 (interpolation unit), (ii) 연산 집약적인 작업을 위한 솔루션을 제공하는 레지스터 파일 (register file)을 통한 코어 간 직접 데이터 액세스 기능을 갖추고 있습니다. 마르코프 체인 몬테카를로 (MCMC) 알고리즘의 병렬 잠재력을 완전히 활용하기 위해, 칩 상의 효과적인 공간 매핑 (spatial mapping) 및 스케줄링을 위한 맞춤형 컴파일러 체인이 개발되었습니다. \name{}은 0.9V에서 1277 MSample/s, 0.7V에서 20 GSamples/s/W를 생성할 수 있으며, 이는 이전의 최첨단 마르코프 무작위장 (Markov Random Field, MRF) 가속기보다 최대 2배 더 빠르고 1.45배 더 높은 에너지 효율을 제공합니다. 우리는 더 나아가 설계의 유연성을 보여주기 위해 베이지안 네트워크 (Bayesian Networks) 벤치마크를 \name{}에 매핑하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

AIA: 비정규화 Knuth-Yao 샘플링 및 코어 간 레지스터 공유를 활용한 근사 추론 가속을 위한 16nm 멀티코어 SoC

요약

핵심 포인트

댓글