MiniMax Sparse Attention (MSA)

초장문 컨텍스트(Ultra-long-context) 처리 능력은 최첨단 LLMs에 필수적인 요소가 되고 있습니다. 에이전트 워크플로우(agentic workflows), 레포지토리 규모의 코드 추론, 영구 메모리 등 모든 것이 모델이 수십만 개에서 수백만 개의 토큰에 걸쳐 공동으로 어텐션(jointly attend)하도록 요구하지만, softmax 어텐션의 2차 비용(quadratic cost)은 배포 규모에서는 감당하기 어렵습니다. 이에 우리는 Grouped Query Attention (GQA)을 기반으로 구축된 블록별 희소 어텐션(blockwise sparse attention), MiniMax Sparse Attention (MSA)을 소개합니다. 가벼운 Index Branch가 키-값(key-value) 블록의 점수를 매기고 각 GQA 그룹에 대해 Top-k 하위 집합을 독립적으로 선택함으로써, 효율적인 블록 레벨 실행을 유지하면서도 그룹별 희소 검색(group-specific sparse retrieval)이 가능하게 합니다. 이후 Main Branch는 선택된 블록만을 대상으로 정확한 블록 희소 어텐션(exact block-sparse attention)을 수행합니다. 단순성과 확장성이라는 원칙에 따라 설계된 MSA는 의도적으로 간소화되어 광범위한 GPU에서 효율적으로 배포하기 쉽습니다. 희소성을 실질적인 속도 향상으로 변환하기 위해, 우리는 exp-free Top-k 선택과 KV-outer sparse attention을 사용하여 블록 단위 접근(block-granular access) 하에서 텐서 코어 활용도를 개선하는 GPU 실행 경로와 MSA를 공동 설계했습니다. 네이티브 멀티모달 트레이닝을 거친 109B 파라미터 모델에서, MSA는 GQA와 동등한 성능을 보이면서도 1M 컨텍스트에서 토큰당 어텐션 연산량을 28.4배 감소시킵니다. 공동 설계된 커널과 결합하여, MSA는 H800에서 14.2배의 프리필(prefill) 및 7.6배의 디코딩(decoding) 벽시계 속도 향상을 달성합니다. 우리의 추론 커널은 다음 URL에서 이용 가능합니다: this https URL. MSA를 기반으로 하는 프로덕션 등급의 네이티브 멀티모달 모델이 다음 URL에서 공개적으로 출시되었습니다: this https URL.

Insights

MiniMax Sparse Attention (MSA)

요약

핵심 포인트

댓글

AI 에이전트가 대본을 벗어날 때: OpenAI와 Anthropic의 최근 사건이 노출(Exposure)에 대해 우리에게 가르쳐 주는 것

Gamma 무료인가요? 400 크레딧은 갱신되지 않습니다: 첫 생성 전 deck을 확인하세요

엔화 투기 세력에 대응하기 위한 미일 협정의 배경

AI 호출이 기본적으로 샌드박스 처리되는 언어를 만들었습니다

Gamma 무료인가요? 400 크레딧은 갱신되지 않습니다: 첫 생성 전 deck을 확인하세요

엔화 투기 세력에 대응하기 위한 미일 협정의 배경

AI 호출이 기본적으로 샌드박스 처리되는 언어를 만들었습니다