MiniMax M3 Sparse Attention: 1M 토큰에서 15.6배의 디코딩 속도 향상 달성
요약
MiniMax가 M2 대비 1M 토큰 환경에서 프리필링 9.7배, 디코딩 15.6배의 속도 향상을 달성한 M3 Sparse Attention 아키텍처를 공개했습니다. 인덱스 브랜치를 활용한 2단계 접근 방식으로 트랜스포머 구조를 유지하며 선형적인 어텐션 스케일링을 구현했습니다.
핵심 포인트
- 1M 토큰 기준 디코딩 속도 15.6배 향상
- 인덱스 브랜치와 희소 KV 어텐션을 결합한 2단계 방식
- 트랜스포머 아키텍처를 유지하며 선형적 스케일링 달성
- 기존 GQA나 Mamba 방식과 차별화된 프로덕션급 효율성
MiniMax M3 sparse attention (희소 어텐션)은 1M 토큰에서 9.7배의 prefilling (프리필링) 및 15.6배의 decoding (디코딩) 속도 향상을 달성하며, M2의 full-attention (전체 어텐션) 방식을 뒤집었습니다.
MiniMax는 M3의 sparse attention 아키텍처를 예고하며, M2 대비 1M 토큰에서 9.7배의 prefilling 및 15.6배의 decoding 속도 향상을 보여주었습니다. 이 2단계(two-stage) 접근 방식은 관련 KV 블록에 대한 sparse attention을 수행하기 전에 블록 선택을 위한 index branch (인덱스 브랜치)를 사용합니다.
주요 사실
- M2 대비 1M 토큰에서 9.7배의 prefilling 속도 향상
- M2 대비 1M 토큰에서 15.6배의 decoding 속도 향상
- 2단계 방식: index branch + sparse KV attention
- M2는 효율적인 어텐션이 준비되지 않았다고 판단하여 full attention을 사용함
- Pretrain 리드의 2026년 3월 블로그 게시물에서 M2의 full attention 선택을 정당화함
@kimmonismus의 예고에 따르면, MiniMax의 M3 sparse attention은 M2 대비 1M 토큰에서 9.7배의 prefilling 및 15.6배의 decoding 속도 향상을 달성했습니다. 이 아키텍처는 새로운 2단계 접근 방식을 사용합니다. 즉, 블록 선택을 위한 경량 index branch를 사용한 다음, 관련 KV 블록에 대해서만 sparse attention을 수행합니다.
이는 MiniMax의 M2 전략으로부터 급격한 반전을 의미합니다. MiniMax는 당시 효율적인 어텐션이 프로덕션(production) 단계에 적합하지 않았기 때문에 의도적으로 M2에서 full attention으로 돌아갔습니다. 그들의 Pretrain 리드는 2026년 3월에 full attention 선택을 정당화하는 블로그 게시물을 발표했습니다. 이제 M3는 엔지니어링 팀이 프로덕션 준비성 문제를 해결했음을 보여줍니다.
벤치마크 결과는 index branch의 오버헤드가 어텐션 절감 효과에 비해 무시할 수 있는 수준임을 시사합니다. 1M 토큰에서 prefilling 속도 향상은 거의 10배에 달하며, 이는 컨텍스트 수집(context ingestion) 시간이 분 단위에서 초 단위로 줄어듦을 의미합니다. 해당 길이에서의 15.6배 decoding 속도 향상은 M2의 full attention과 유사한 베이스라인을 가정할 때, 토큰 생성 지연 시간(latency)이 토큰당 약 150ms에서 약 10ms로 떨어진다는 것을 암시합니다.
MiniMax는 M3의 정확한 아키텍처 세부 사항, 훈련 비용 또는 출시 일정을 공개하지 않았습니다. 또한 회사는 sparse attention이 기존 M2 체크포인트와 호환되는지, 아니면 재학습(retraining)이 필요한지에 대해서도 명시하지 않았습니다.
독특한 관점: MiniMax의 M3 sparse attention (희소 어텐션)은 극단적인 길이에서 prefilling (프리필링)과 decoding (디코딩) 모두에서 full attention (전체 어텐션)을 능가하는, 주요 open-weight (개방형 가중치) 연구소에서 내놓은 최초의 프로덕션급 효율적 어텐션 메커니즘입니다. 이는 속도를 위해 품질을 희생하는 Google의 GQA나 Meta의 Multi-Query Attention, 그리고 아키텍처를 완전히 바꾸는 Mamba 스타일의 state-space models (상태 공간 모델)와 대조를 이룹니다. M3는 transformer (트랜스포머) 아키텍처를 유지하면서도 거의 선형적인 attention scaling (어텐션 스케일링)을 달성합니다.
주목할 점
MiniMax의 공식 M3 출시와 RULER 또는 LongBench와 같은 표준 long-context (긴 문맥) 작업에서의 벤치마크를 주목하십시오. 만약 품질 저하 없이 4M+ 토큰에서도 속도 향상이 유지된다면, 이는 현재까지 가장 강력한 open-weight 효율적 어텐션 설계가 될 것입니다.
원문 출처: gentic.news
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기