X요약2026. 06. 13. 07:40

MiniMax, 백만 토큰 컨텍스트용 MSA 공개

요약

MiniMax가 백만 토큰 컨텍스트 처리를 위한 MSA(Multi-Query Attention)를 공개했습니다. 이 기술은 Index Branch에서 Top-k KV 블록을 선택하고, Main Branch에서 해당 블록에만 어텐션을 수행하는 방식으로 작동합니다.

핵심 포인트

1M 토큰 컨텍스트용 MSA 기술 공개
어텐션 계산량을 28배 감소시킴
H800 GPU 환경에서 프리필 속도 14배 향상

MiniMax가 백만 토큰 컨텍스트를 위한 MSA(Multi-Query Attention)를 공개했습니다.

Index Branch를 통해 GQA 그룹당 Top-k KV 블록을 점수화하고 선택하며, Main Branch는 해당 블록에만 어텐션을 수행하는 방식입니다. 109B 모델에서 1M 토큰의 경우, 토큰당 어텐션 계산량을 28배 줄이고 H800 GPU에서 프리필(prefill) 속도를 14배 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

MiniMax, 백만 토큰 컨텍스트용 MSA 공개

요약

핵심 포인트

댓글