
MiniMax, 백만 토큰 컨텍스트용 MSA 공개
요약
MiniMax가 백만 토큰 컨텍스트 처리를 위한 MSA(Multi-Query Attention)를 공개했습니다. 이 기술은 Index Branch에서 Top-k KV 블록을 선택하고, Main Branch에서 해당 블록에만 어텐션을 수행하는 방식으로 작동합니다.
핵심 포인트
- 1M 토큰 컨텍스트용 MSA 기술 공개
- 어텐션 계산량을 28배 감소시킴
- H800 GPU 환경에서 프리필 속도 14배 향상
MiniMax가 백만 토큰 컨텍스트를 위한 MSA(Multi-Query Attention)를 공개했습니다.
Index Branch를 통해 GQA 그룹당 Top-k KV 블록을 점수화하고 선택하며, Main Branch는 해당 블록에만 어텐션을 수행하는 방식입니다. 109B 모델에서 1M 토큰의 경우, 토큰당 어텐션 계산량을 28배 줄이고 H800 GPU에서 프리필(prefill) 속도를 14배 향상시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기