CHIMERA: Transformer 가속기와 QoS 보장이 가능한 563 Gb/s 공유 L2 메모리 서브시스템을 갖춘 유연하고 확장 가능한
요약
초저전력 에지 환경에서 Transformer 모델 추론을 가속화하기 위한 MCU인 Chimera를 소개합니다. 22nm FDX 공정 기반의 이 칩은 고대역폭 L2 메모리 서브시스템과 QoS 보장 기능을 통해 지연 시간을 획기적으로 줄였습니다.
핵심 포인트
- 563 Gb/s 대역폭을 제공하는 확장 가능한 L2 메모리 서브시스템
- QoS 보장을 통해 지연 시간을 최대 16배 감소
- 기존 SoC 대비 1.37배 높은 에너지 효율 달성
- 독립형 가속기 대비 최대 1.8배 높은 면적 효율 기록
우리는 초저전력 에지(hundred of mW) 환경에서 급격히 진화하는 Transformer 기반 모델의 실시간 추론 (inference)을 가속화하도록 설계된 유연하고 확장 가능한 마이크로컨트롤러 유닛 (MCU)인 Chimera를 선보입니다. 22 nm FDX 공정으로 구현된 이 칩은 9개의 범용 RV32IMA 코어를 특징으로 하는 컴퓨팅 클러스터 (compute cluster) 내에 Transformer 가속기를 긴밀하게 결합하였습니다. 확장성은 새로운 L2 메모리 아일랜드 (L2 memory island) 서브시스템을 통해 메모리 계층 구조로 확장되며, 이를 통해 563 Gb/s의 총 대역폭 (aggregate bandwidth)을 제공하는 동시에 여러 클러스터 간의 데이터 공유를 가능하게 합니다. L2 서브시스템은 지연 시간에 민감한 (latency-critical) 트래픽에 대해 서비스 품질 (QoS) 보장을 강제하여, 최대 16배의 지연 시간 감소를 달성합니다. Chimera는 3.1 TOPS/W 및 281 GOPS/mm²의 피크 에너지 및 면적 효율을 달성하였으며, 이는 최첨단 (State of the Art, SoA) SoC와 비교했을 때 1.37배 더 높은 에너지 효율과 최대 100배 더 높은 면적 효율을 보여줍니다. SoA 독립형 가속기 (standalone accelerators)와 비교했을 때, Chimera는 대등한 에너지 효율을 달성하면서도 최대 1.8배 더 높은 면적 효율을 기록했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기