X요약2026. 06. 13. 21:41

NVIDIA SM100 GPU용 고성능 FlashAttention 및 희소 top-k 어텐션 커널 구현

요약

MiniMax에서 NVIDIA SM100 GPU를 위한 고성능 FlashAttention 및 희소 top-k 어텐션 커널 라이브러리를 공개했습니다. 이 오픈 소스 라이브러리는 고밀도 FlashAttention과 블록 희소 top-k 어텐션을 포함하며, 두 가지 JIT 컴파일 스택을 제공합니다.

핵심 포인트

NVIDIA SM100 GPU에 최적화된 커널 구현체입니다.
고밀도 FlashAttention 및 희소 top-k 어텐션 기능을 지원합니다.
csrc와 CuTe-DSL 두 가지 JIT 컴파일 스택을 제공하여 활용도가 높습니다.

고밀도 FlashAttention과 희소 top-k 어텐션 커널을 NVIDIA SM100 GPU에 제공하는 고성능 구현체입니다.
https://github.com/MiniMax-AI/MSA
MiniMax의 오픈 소스 NVIDIA SM100 어텐션 커널 라이브러리로, 고밀도 FlashAttention과 블록 희소 top-k 어텐션을 포함합니다.

두 가지 JIT 컴파일 스택을 제공합니다. csrc 스택은 고밀도 FMHA를 처리하며, CuTe-DSL 스택은 희소 프리필(prefill) 및 양자화(quantization)를 지원합니다. 커널은 Python 패키지를 통해 배포되며, 첫 임포트 시 JIT 컴파일되고, 전체 테스트와 벤치마크가 함께 제공됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

NVIDIA SM100 GPU용 고성능 FlashAttention 및 희소 top-k 어텐션 커널 구현

요약

핵심 포인트

댓글