WBMM: 효율적인 대규모 수용 영역 컨볼루션을 위한 윈도우 기반 배치 행렬 곱셈
요약
대규모 커널 depthwise convolution의 메모리 액세스 문제를 해결하기 위해 윈도우 기반 배치 행렬 곱셈(WBMM) 방식을 제안합니다. WBMM은 윈도우 크기가 커질수록 처리량이 향상되며, 기존 방식보다 훨씬 큰 수용 영역을 제공하면서도 높은 훈련 속도와 정확도를 달성합니다.
핵심 포인트
- 불규칙한 메모리 액세스를 규칙적인 배치 행렬 곱셈으로 전환
- 커널 크기가 커질수록 처리량이 향상되는 구조적 특징
- 기존 5x5 depthwise convolution 대비 7.8배 큰 수용 영역 제공
- GPU, CPU, 에지 디바이스 전반에서 일관된 성능 이점 확인
- ImageNet-1K 등 주요 데이터셋에서 훈련 속도 1.31-1.88배 향상
대규모 커널 depthwise convolution (depthwise convolution)은 강력한 성능을 달성하지만, gather 기반 연산으로 인한 불규칙한 메모리 액세스 때문에 커널 크기가 커짐에 따라 심각한 성능 저하를 겪습니다. Large Kernel Acceleration (LKA)는 작은 피처 맵 (feature maps)에서는 도움이 되지만, 큰 피처 맵에서는 오히려 역효과를 내어 가속되지 않은 구현체보다 더 느려지기도 합니다. 우리는 입력을 연속적인 윈도우 (windows)로 분할하고, 압축된 상대적 위치 편향 (relative position bias) 테이블을 인덱싱하여 가중치 행렬을 구성함으로써 배치 행렬 곱셈 (batched matrix multiplication)을 통한 규칙적인 메모리 액세스를 가능하게 하는 Windowed Batch Matrix Multiplication (WBMM)을 제안합니다. 이는 독특한 특성을 만들어냅니다. 즉, 커널이 커질수록 성능이 저하되는 depthwise convolution과 반대로, WBMM의 처리량 (throughput)은 윈도우가 커질수록 향상됩니다. 연산자 수준의 벤치마크 결과, 14x14 윈도우를 사용하는 WBMM은 5x5 depthwise convolution 베이스라인보다 속도 면에서 우수하면서도 레이어당 7.8배 더 큰 수용 영역 (receptive field)을 제공합니다. 블록 간 윈도우 간 통신 (inter-block cross-window communication) 및 계층적 윈도우 재매개변수화 (hierarchical window reparameterization)와 결합된 WBMM은 ImageNet-1K, COCO, ADE20K에서 1.31-1.88배의 훈련 속도 향상과 함께 대등하거나 더 높은 정확도를 달성하며, 특화된 가속 커널을 필요로 하지 않고도 GPU, CPU 및 에지 디바이스 (edge devices) 전반에서 일관된 이점을 보여줍니다. 우리의 코드는 http://github.com/wansong-s/WBMM 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기