본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 13. 03:10

MiniMax Sparse Attention (MSA)

요약

본 글은 초장문 컨텍스트 처리를 위한 MiniMax Sparse Attention (MSA)을 제안합니다. MSA는 GQA 기반의 블록별 희소 어텐션을 사용하여, 기존 softmax 어텐션의 2차 비용 문제를 해결했습니다. 이 기술은 토큰당 연산량을 대폭 줄이고 GPU 실행 경로를 최적화하여 높은 효율성을 달성했습니다.

핵심 포인트

  • MSA는 GQA 기반의 블록별 희소 어텐션입니다.
  • 1M 컨텍스트에서 토큰당 연산량을 28.4배 감소시킵니다.
  • H800 환경에서 프리필 및 디코딩 속도를 크게 향상합니다.
  • 단순성과 확장성을 고려하여 GPU 배포가 용이합니다.

초장문 컨텍스트(Ultra-long-context) 처리 능력은 최첨단 LLMs에 필수적인 요소가 되고 있습니다. 에이전트 워크플로우(agentic workflows), 레포지토리 규모의 코드 추론, 영구 메모리 등 모든 것이 모델이 수십만 개에서 수백만 개의 토큰에 걸쳐 공동으로 어텐션(jointly attend)하도록 요구하지만, softmax 어텐션의 2차 비용(quadratic cost)은 배포 규모에서는 감당하기 어렵습니다. 이에 우리는 Grouped Query Attention (GQA)을 기반으로 구축된 블록별 희소 어텐션(blockwise sparse attention), MiniMax Sparse Attention (MSA)을 소개합니다. 가벼운 Index Branch가 키-값(key-value) 블록의 점수를 매기고 각 GQA 그룹에 대해 Top-k 하위 집합을 독립적으로 선택함으로써, 효율적인 블록 레벨 실행을 유지하면서도 그룹별 희소 검색(group-specific sparse retrieval)이 가능하게 합니다. 이후 Main Branch는 선택된 블록만을 대상으로 정확한 블록 희소 어텐션(exact block-sparse attention)을 수행합니다. 단순성과 확장성이라는 원칙에 따라 설계된 MSA는 의도적으로 간소화되어 광범위한 GPU에서 효율적으로 배포하기 쉽습니다. 희소성을 실질적인 속도 향상으로 변환하기 위해, 우리는 exp-free Top-k 선택과 KV-outer sparse attention을 사용하여 블록 단위 접근(block-granular access) 하에서 텐서 코어 활용도를 개선하는 GPU 실행 경로와 MSA를 공동 설계했습니다. 네이티브 멀티모달 트레이닝을 거친 109B 파라미터 모델에서, MSA는 GQA와 동등한 성능을 보이면서도 1M 컨텍스트에서 토큰당 어텐션 연산량을 28.4배 감소시킵니다. 공동 설계된 커널과 결합하여, MSA는 H800에서 14.2배의 프리필(prefill) 및 7.6배의 디코딩(decoding) 벽시계 속도 향상을 달성합니다. 우리의 추론 커널은 다음 URL에서 이용 가능합니다: this https URL. MSA를 기반으로 하는 프로덕션 등급의 네이티브 멀티모달 모델이 다음 URL에서 공개적으로 출시되었습니다: this https URL.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0