TetrisG-SDK: 적응형 윈도우 및 그룹별 합성곱을 활용한 효율적인 컨볼루션 레이어 매핑과 빠른 인메모리 컴퓨팅
요약
TetrisG-SDK는 적응형 윈도우와 그룹별 합성곱을 활용하여 Compute-in-Memory (CIM) 하드웨어에서 컨볼루션 레이어 매핑의 효율성을 극대화하는 새로운 프레임워크입니다. 기존 방법론이 단일 CIM 매크오에만 초점을 맞춘 한계를 넘어, TetrisG-SDK는 여러 매크오 간 병렬성을 활용하여 컴퓨팅 지연 시간을 획기적으로 줄입니다. 이 프레임워크는 검증된 시뮬레이터를 통해 시스템 수준에서 속도 향상뿐 아니라 에너지 및 면적 효율성까지 입증하며, 다양한 CNN 모델에 걸쳐 우수한 성능을 보여주었습니다.
핵심 포인트
- TetrisG-SDK는 적응형 윈도우를 사용하여 입력 채널 수용 능력과 배열 활용도를 높이고, 여러 CIM 매크오 간 병렬성을 최적화합니다.
- 그룹별 합성곱(grouped convolution)을 통합하여 모델 정확도를 유지하면서 컴퓨팅 사이클을 추가로 줄여 에너지 효율성을 개선했습니다.
- 단일 매크오 기반의 기존 방법론 대비, TetrisG-SDK는 CNN8, GoogLeNet Inception 등 주요 모델에서 1.2배~1.3배의 속도 향상을 달성했습니다.
- 시스템 수준 분석 결과, TetrisG-SDK는 대안 대비 에너지-지연-면적 곱(EDAP)을 최대 70%까지 감소시키는 높은 효율성을 입증했습니다.
Shifted-and-Duplicated-Kernel (SDK) 매핑은 compute-in-memory (CIM) 하드웨어에서 컨볼루션 레이어의 속도를 가속화하는 효과적인 전략으로 부상했습니다. 그러나 기존 SDK 변형들 (예: VWC-SDK) 은 단일 CIM 매크오에 대한 매핑만 최적화하여 매크오 간 병렬성 (inter-macro parallelism) 을 탐구하지 않았습니다. 또한, 그들의 매핑 방법론은 여전히 비최적입니다. 이러한 한계를 해결하기 위해 우리는 적응형 윈도우를 활용하여 매핑 성능을 향상시키는 새로운 프레임워크인 TetrisG-SDK 를 제시합니다. 제안된 윈도우는 더 많은 입력 채널을 수용하고, 최소한의 공간에서 배열 활용도를 높이며, 다양한 채널 깊이에 적응합니다. 더욱 중요한 점은 TetrisG-SDK 가 고정된 하드웨어 예산 내에서 여러 CIM 매크오를 가로질러 최적의 윈도우 구성을 검색함으로써 컴퓨팅 지연 시간을 줄인다는 것입니다. 또한, 손실 없는 모델 정확도를 유지하면서 컴퓨팅 사이클을 추가로 줄이기 위해 그룹별 합성곱 (grouped convolution) 을 통합합니다. 추가적으로 TetrisG-SDK 는 검증된 CIM 하드웨어 시뮬레이터를 통합하여 지연 시간, 면적 및 에너지에 대한 정확한 시스템/애플리케이션 수준의 추정치를 제공합니다. 단일 매크오 VWC-SDK 와 비교할 때, 제안된 프레임워크는 CNN8 모델의 경우 1.2 배, GoogLeNet Inception 의 경우 1.3 배, DenseNet40 모델의 경우 1.3 배의 속도 향상을 달성합니다. 시뮬레이터에 배포되었을 때, CNN8 은 시스템 수준의 지연 시간과 에너지를 각각 2.4 배와 1.7 배 줄이고, Inception 은 1.3 배와 1.2 배, DenseNet40 은 1.3 배와 1.6 배 줄입니다. 매크오 수준의 병렬성을 활용할 때, TetrisG-SDK 는 그룹별 처리가 없는 대안과 비교하여 CNN8 의 경우 Energy-Delay-Area-Product (EDAP) 를 70%, Inception 의 경우 68%, DenseNet40 의 경우 36% 줄입니다. 이러한 결과는 TetrisG-SDK 가 CIM 하드웨어에서 컨볼루션 레이어를 효율적으로 매핑하기 위한 유망한 해결책임을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기