arXiv논문2026. 06. 23. 22:17

NeutronSparse: NPU 상의 희소 행렬 곱셈 (SpMM)을 위한 이기종 엔진 간의 협업 조율

요약

NPU 환경에서 희소 행렬 곱셈(SpMM)의 성능을 최적화하기 위한 새로운 프레임워크 NeutronSparse를 제안합니다. 이기종 엔진 간의 협업 조율과 지역성 인식 타일 오케스트레이션을 통해 데이터 관리 병목 현상을 해결합니다.

핵심 포인트

NPU 기반 SpMM의 성능 병목인 이기종 유닛 간 협업 부족 문제 해결
Sparsity-aware coordination을 통한 적응적 워크로드 분할 및 균형 유지
Locality-aware tile orchestrating으로 메모리 이동 오버헤드 및 중복 계산 감소
Ascend 910B 기준 베이스라인 대비 최대 7.78배, GPU 라이브러리 대비 최대 3.07배 성능 향상

희소 행렬-행렬 곱셈 (SpMM, Sparse matrix-matrix multiplication)은 대규모 희소 데이터 처리를 위한 근본적인 데이터 연산입니다. 성능과 에너지 효율성 덕분에 데이터 센터에 NPU가 점점 더 많이 배치됨에 따라, 이러한 플랫폼에서 SpMM을 가속화하는 것은 자연스러운 선택입니다. 그러나 NPU에서의 고성능 SpMM은 데이터 관리 측면의 과제를 안겨주는데, 이는 불규칙한 희소성 (sparsity)이 효율적인 데이터 구성과 스케줄링을 요구하기 때문입니다. Ascend 910B에서 공식 MindSpore 구현은 NVIDIA A100 기반의 cuSPARSE와 같은 GPU 기반 희소 라이브러리 성능의 36.3%만을 달성합니다. 이를 위해, 우리는 NPU와 GPU 간의 SpMM 실행에 대한 심층적인 아키텍처 분석을 수행하였으며, NPU 상의 SpMM에 대한 핵심 성능 병목 현상이 타일 기반 실행 모델 (tile-based execution model) 하에서 이기종 컴퓨팅 유닛 간의 효율적인 협업 부족에 있음을 확인했습니다. 따라서, 우리는 NPU를 위한 협업 우선 SpMM 프레임워크인 NeutronSparse를 제안합니다. NeutronSparse는 두 가지 핵심 기술을 통합합니다: (i) 이기종 엔진의 희소성 인식 협업 (Sparsity-aware coordination), 이는 이기종 컴퓨팅 유닛 간의 워크로드를 적응적으로 분할하고 균형을 맞추어 유닛들이 계속 작동하도록 유지합니다. (ii) 지역성 인식 타일 오케스트레이션 (Locality-aware tile orchestrating), 이는 데이터 타일을 재구성하고 재사용하여 중복 계산과 메모리 이동 오버헤드를 줄입니다. Ascend 910B에서의 평가 결과, NeutronSparse는 NPU 베이스라인 대비 1.26배~~7.78배, NVIDIA A100 상의 선도적인 GPU 라이브러리 대비 1.03배~~3.07배의 속도 향상을 달성하였으며, 이는 희소 연산에 대한 NPU의 미개척 잠재력을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

NeutronSparse: NPU 상의 희소 행렬 곱셈 (SpMM)을 위한 이기종 엔진 간의 협업 조율

요약

핵심 포인트

댓글