ELSA: 효율적인 뉴로모픽 컴퓨팅을 위한 탄력적 SNN 추론 아키텍처
요약
ELSA는 SNN(Spiking Neural Networks)의 탄력적 추론 특성을 극대화하기 위해 설계된 near-SRAM 데이터플로우 아키텍처입니다. 기존 가속기들이 레이어 단위로 동작하여 응답 지연이 발생하는 문제를 해결하기 위해, 미세한 스파인/토큰 단위의 파이프라인과 최적화된 통신 프로토콜을 도입했습니다. 이를 통해 정확도를 유지하면서도 기존 SOTA 가속기 대비 비약적인 속도 및 에너지 효율 향상을 달성했습니다.
핵심 포인트
- 미세한 스파인/토큰 단위의 파이프라인을 통해 첫 번째 응답까지의 지연 시간(latency)을 대폭 단축
- 번들형 주소 이벤트 표현(bundled AER) 프로토콜을 도입하여 NoC 통신 트래픽 감소
- 미니 배치 스파이킹 Gustavson-product를 활용한 메모리 액세스 최적화 및 희소성 활용
- SOTA QANN 가속기 대비 3.4배 속도 향상 및 13.6배 에너지 효율 달성
- SOTA SNN 가속기 대비 2.9배 속도 향상 및 22.1배 에너지 효율 달성
스파이킹 신경망 (Spiking Neural Networks, SNNs)은 이벤트 기반 (event-driven) 및 가산 전용 (addition-only) 연산을 활용하여 지능형 연산의 효율성을 실질적으로 향상시킵니다. SNN의 핵심적인 시간적 특성인 탄력적 추론 (elastic inference)은 출력이 점진적으로 나타나게 하여, 전체 평가가 완료되기 훨씬 이전에 중요한 입력에 대한 응답을 가능하게 합니다. 그러나 기존의 SNN 전용 가속기들은 이러한 특성을 활용하지 못합니다. 레이어별 (Layer-by-layer) 설계는 모든 레이어가 완료된 후에만 출력을 내보내며, 타임스텝별 (time-step-by-time-step) 설계는 레이어 내의 모든 스파인/토큰 (spine/token)을 동기화해야 하는 조립 단위의 레이어별 파이프라인 (layer-wise pipelines)에 의존합니다. 이러한 장벽은 결과가 즉시 전달되는 것을 방해하여, 가능한 가장 빠른 응답을 지연시키고 탄력적 추론의 이점을 상실하게 만듭니다. 이러한 과제를 해결하기 위해, 우리는 미세한 스파인/토큰 단위의 파이프라인 (fine-grained spine/token-wise pipeline)과 SNN에 맞춤화된 하드웨어 최적화를 통해 진정한 탄력적 추론을 구현하는 near-SRAM 데이터플로우 아키텍처인 ELSA를 제안합니다. ELSA는 각 스파인/토큰이 생성되는 즉시 전달하여 연속적인 스트리밍 파이프라인 (continuous streaming pipeline)을 형성함으로써 첫 번째 응답까지의 지연 시간 (latency)을 대폭 줄입니다. 이러한 경량 실행을 강화하기 위해, ELSA는 네트워크 온 칩 (Network-on-Chip, NoC)의 통신 트래픽을 낮추는 번들형 주소 이벤트 표현 (bundled address event representation) 프로토콜을 도입하고, 메모리 액세스를 줄이고 내재된 희소성 (sparsity)을 활용하기 위해 미니 배치 스파이킹 Gustavson-product를 사용합니다. 매핑 및 스케줄링 최적화와 결합된 ELSA는 정확도를 저하시키지 않으면서 효율적인 이벤트 기반 연산을 달성합니다. 실험 결과, SNN은 대등한 정확도를 유지하면서 양자화된 인공 신경망 (Quantized Artificial Neural Networks, QANNs)보다 뛰어난 성능을 보일 수 있음을 보여줍니다. 4-bit ResNet-50의 경우, ELSA는 최신 SOTA QANN 가속기 (ANT) 대비 3.4배의 속도 향상과 13.6배 높은 에너지 효율을 달성하였으며, 최신 SOTA SNN 가속기 (PAICORE) 대비 2.9배의 속도 향상과 22.1배의 에너지 효율 이득을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기