WBMM: 효율적인 대규모 수용 영역 컨볼루션을 위한 윈도우 기반 배치 행렬 곱셈

대규모 커널 depthwise convolution (depthwise convolution)은 강력한 성능을 달성하지만, gather 기반 연산으로 인한 불규칙한 메모리 액세스 때문에 커널 크기가 커짐에 따라 심각한 성능 저하를 겪습니다. Large Kernel Acceleration (LKA)는 작은 피처 맵 (feature maps)에서는 도움이 되지만, 큰 피처 맵에서는 오히려 역효과를 내어 가속되지 않은 구현체보다 더 느려지기도 합니다. 우리는 입력을 연속적인 윈도우 (windows)로 분할하고, 압축된 상대적 위치 편향 (relative position bias) 테이블을 인덱싱하여 가중치 행렬을 구성함으로써 배치 행렬 곱셈 (batched matrix multiplication)을 통한 규칙적인 메모리 액세스를 가능하게 하는 Windowed Batch Matrix Multiplication (WBMM)을 제안합니다. 이는 독특한 특성을 만들어냅니다. 즉, 커널이 커질수록 성능이 저하되는 depthwise convolution과 반대로, WBMM의 처리량 (throughput)은 윈도우가 커질수록 향상됩니다. 연산자 수준의 벤치마크 결과, 14x14 윈도우를 사용하는 WBMM은 5x5 depthwise convolution 베이스라인보다 속도 면에서 우수하면서도 레이어당 7.8배 더 큰 수용 영역 (receptive field)을 제공합니다. 블록 간 윈도우 간 통신 (inter-block cross-window communication) 및 계층적 윈도우 재매개변수화 (hierarchical window reparameterization)와 결합된 WBMM은 ImageNet-1K, COCO, ADE20K에서 1.31-1.88배의 훈련 속도 향상과 함께 대등하거나 더 높은 정확도를 달성하며, 특화된 가속 커널을 필요로 하지 않고도 GPU, CPU 및 에지 디바이스 (edge devices) 전반에서 일관된 이점을 보여줍니다. 우리의 코드는 http://github.com/wansong-s/WBMM 에서 확인할 수 있습니다.

Insights

WBMM: 효율적인 대규모 수용 영역 컨볼루션을 위한 윈도우 기반 배치 행렬 곱셈

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때