본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 17. 13:59

MiniMax M3 오픈 웨이트 공개, 1M 컨텍스트를 지원하는 MSA 분석

요약

MiniMax가 1M 컨텍스트 길이를 지원하는 428B 규모의 오픈 웨이트 MoE 모델 M3를 공개했습니다. MSA(MiniMax Sparse Attention) 기술을 도입하여 긴 컨텍스트 처리 시 계산량을 획기적으로 줄이면서도 품질을 유지한 것이 핵심입니다.

핵심 포인트

  • 428B 총 파라미터 중 23B만 활성화되는 MoE 구조 채택
  • MSA 기술로 1M 컨텍스트 처리 시 어텐션 계산량 28.4배 감소
  • GQA와 동등한 품질을 유지하며 prefill 및 decoding 속도 대폭 향상
  • vLLM 및 SGLang을 통한 즉시 사용 가능 및 다양한 양자화 버전 제공

HuggingFace의 MiniMaxAI/MiniMax-M3를 열어보면 가장 먼저 눈에 띄는 것은 파라미터 표기다. 총 파라미터는 약 428B이지만, 활성(Active) 파라미터는 약 23B이다. MoE(Mixture of Experts)로서는 드물지 않은 비율이지만, 이 차이는 추론 비용 문제와 직결된다. 6월 1일에 API만 선공개되었던 M3의 가중치(Weights)가 최근 1~2일 사이에 드디어 HuggingFace에 올라왔다. 라이선스는 minimax-community이며, llama.cpp/Ollama용 양자화(Quantization) 버전도 이미 19종류가 나열되어 있다.

다만, 428B라는 숫자도 1M 토큰이라는 컨텍스트 길이(Context Length)도 그 자체로는 2026년 현재 더 이상 놀라운 일이 아니다. 엔지니어로서 읽을 가치가 있는 것은, 그 1M을 현실적인 비용으로 돌리기 위해 도입된 MSA(MiniMax Sparse Attention)이다.

기술 보고서(arXiv:2606.13392)에 따르면, MSA는 GQA(Grouped Query Attention) 위에 얹은 블록 단위의 희소 어텐션(Sparse Attention)이다. 구조는 2단계로 이루어져 있다. 경량화된 Index Branch가 key-value 블록에 점수를 매기고, GQA 그룹마다 상위 k개의 블록만을 선택한다. 이어지는 Main Branch는 선택된 블록에 대해서만 정확한 block-sparse attention을 계산한다. 모든 토큰을 보는 것을 그만두고, 효과가 있을 법한 곳만 엄밀하게 보는 방식이다.

효과는 보고서의 수치로 나타난다. 109B 구성의 1M 컨텍스트로 측정했을 때, 토큰당 어텐션 계산량은 28.4배 감소했으며, H800 상의 wall-clock 기준으로 prefill은 14.2배, decoding은 7.6배 빠르다고 한다. 그러면서도,

"MSA performs on par with GQA"

라고 주장하며 품질은 GQA와 동등하다고 말한다. 희소하게 만들면 품질이 떨어진다는 통념에 대한 반증을 제시한 셈이다.

한 가지 주의할 점은, 이 28.4배 등의 수치는 어디까지나 109B GQA 베이스라인과의 비교이며, 제품으로서의 M3(428B) 자체의 수치는 아니라는 점이다. GitHub과 HF의 모델 카드 측에서는 전 세대인 M2와의 비교를 통해 prefill 9배, decode 15배, 토큰당 계산량 1/20이라는 별도의 수치를 제시하고 있다. 베이스라인이 다르므로 단순 비교는 불가능하지만, 수치의 규모(Order of magnitude)는 일치한다.

지표출처비교 대상
prefill 9배 / decode 15배M3 모델 카드전 세대 M2 (1M 컨텍스트)
...

vLLM이나 SGLang을 그대로 사용할 수 있다. HF 공식 절차는 다음과 같다.

pip install vllm
vllm serve "MiniMaxAI/MiniMax-M3"

SGLang의 경우 다음과 같다.

python3 -m sglang.launch_server --model-path "MiniMaxAI/MiniMax-M3" --host 0.0.0.0 --port 30000

가중치만 미리 내려받으려면 hf download MiniMaxAI/MiniMax-M3 --local-dir MiniMax-M3를 사용하면 된다. 직접 보유하기에 무겁다면, API는 MiniMax-M3라는 모델명으로 https://api.minimax.io/v1/text/chatcompletion_v2에 요청을 보내면 된다.

물론 428B 총 파라미터를 풀 정밀도(Full Precision)로 구동할 수 있는 현장은 제한적이다. 활성 파라미터 23B 설계가 빛을 발하는 지점이 바로 여기이며, MoE 덕분에 1토큰당 작동하는 계산량은 23B급으로 수렴한다. 가중치를 VRAM에 상주시키는 비용은 428B만큼 지불해야 하지만, 계산 처리량(Throughput)은 23B급이다. 이 격차를 어떻게 메우느냐가 로컬에서 다루는 입장에서의 첫 번째 고민이 될 것이다. 공개 당일부터 19종류의 양자화 버전이 나열된 것도 그러한 수요를 예상했기 때문일 것이다.

MiniMax의 공식 모델 페이지에 따르면, 에이전트적인 웹 탐색을 측정하는 BrowseComp에서 M3가 83.5를 기록하며 Opus 4.7(79.3)을 넘어섰다고 한다. 반면 PostTrainBench는 37.1로 전체 3위이며, Opus 4.7(42.4)과 GPT-5.5(39.3)의 뒤를 잇고 있다. 프런티어(Frontier) 모델과 어깨를 나란히 하는 영역과 아직 미치지 못하는 영역이 명확히 나뉘어 있는 것이 솔직한 평가다.

이 부분은 냉정하게 바라볼 필요가 있다. 두 수치 모두 벤더(Vendor) 자체 측정 결과이며, 제3자의 재현 실험은 앞으로 이루어져야 한다. 그럼에도 불구하고 텍스트뿐만 아니라 이미지와 영상을 네이티브(Native)하게 다룰 수 있는 오픈 웨이트(Open weights) 모델이면서, 게다가 1M 컨텍스트(Context)를 MSA로 저렴하게 구동할 수 있는 조합을 가중치(Weights)와 함께 내놓았다는 사실 자체가 이번 발표의 의의라고 생각한다. 롱 컨텍스트(Long-context) RAG나 긴 영상·로그를 통째로 집어넣는 에이전트(Agent)를 자체 인프라로 구축하려는 계층에게는 검증할 가치가 있는 선택지가 하나 늘어난 셈이다.

기술 보고서와 가중치가 모두 공개된 이상, 다음에 확인해야 할 것은 외부 벤치마크에서 MSA의 '동등성'이 재현되는지 여부다. 희소 어텐션(Sparse Attention)이 정말로 GQA(Grouped-Query Attention)와 대등한 성능을 내는지, 긴 문맥의 끝부분에서 정확도가 무너지지 않는지 말이다. 그 부분이 제3자의 손에 의해 확인되어야 비로소 1M은 실용적인 숫자가 될 것이다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0