MiniMax M3: Sparse Attention을 탑재한 100만 토큰 오픈 웨이트 (Open-Weight) 모델이 개발자에게 의미하는 것

2026년 6월 1일, 새로운 오픈 웨이트 (Open-Weight) 모델이 출시되었으며, 이 모델이 실제로 무엇이 다른지 이해할 가치가 있습니다. MiniMax M3는 상하이에 본사를 둔 MiniMax의 멀티모달 (Multimodal) 모델로, 100만 토큰의 컨텍스트 윈도우 (Context Window)와 해당 컨텍스트 윈도우를 경제적으로 사용할 수 있도록 설계된 커스텀 어텐션 (Attention) 메커니즘을 결합했습니다. 여기에서는 아키텍처가 어떻게 구성되어 있는지, 벤치마크 (Benchmark) 결과는 어떠한지, 그리고 이를 통합하기 전에 알아야 할 사항은 무엇인지 설명합니다.

핵심 문제: 긴 컨텍스트는 비용이 많이 듭니다

표준 트랜스포머 (Transformer) 어텐션은 시퀀스 길이 (Sequence Length)에 따라 제곱으로 확장됩니다. 컨텍스트가 두 배가 되면 어텐션 연산량은 대략 네 배가 됩니다. 100만 토큰의 경우, 이는 이론적인 우려가 아니라 대부분의 프로덕션 워크로드 (Production Workload)에서 긴 컨텍스트 추론 (Inference)을 지나치게 비싸게 만드는 실질적인 장벽입니다.

이를 해결하기 위해 슬라이딩 윈도우 어텐션 (Sliding Window Attention), 선형 어텐션 근사 (Linear Attention Approximations), KV 캐시 압축 (KV Cache Compression) 등 여러 접근 방식이 시도되었습니다. MiniMax M3는 그들이 **MiniMax Sparse Attention (MSA)**라고 부르는 방식으로 다른 길을 택했습니다.

MSA의 작동 방식

MSA는 전체 컨텍스트 어텐션을 두 갈래의 KV-블록 선택 메커니즘으로 대체합니다:

인덱스 브랜치 (Index branch): top-k 선택을 사용하여 주어진 쿼리 (Query)에 대해 KV 캐시의 가장 관련성 높은 블록을 식별하는 경량 스코어링 패스 (Scoring Pass)입니다.
스파스 브랜치 (Sparse branch): 전체 시퀀스가 아닌, 선택된 블록들에 대해서만 전체 어텐션을 계산합니다.

핵심적인 구현 세부 사항은 "KV outer gather Q" 실행 패턴입니다. 쿼리별로 반복하는 대신 (이는 산재된 메모리 읽기를 유발합니다), 모델은 동일한 KV 블록이 필요한 쿼리들을 배치 (Batch) 처리하여 각 블록을 연속적인 메모리 패스 (Contiguous Memory Pass)에서 한 번만 처리합니다. 이는 GPU 활용도 측면에서 중요합니다. 산재된 메모리 액세스 (Scattered Memory Access)는 긴 컨텍스트 추론에서 주요 병목 현상 중 하나이기 때문입니다.

MiniMax의 자체 측정 결과에 따르면, 이는 이전 세대와 비교했을 때 100만 토큰 환경에서 프리필 (prefill) 속도는 9배, 디코딩 (decoding) 속도는 15배 더 빠르며, 토큰당 연산량 (per-token compute)은 이전 모델의 약 1/20 수준으로 감소했습니다. The Decoder의 독립적인 분석은 이러한 아키텍처 측면의 주장을 뒷받침하면서도, 해당 벤치마크가 MiniMax의 내부 인프라에서 실행되었다는 점을 언급했습니다.

벤치마크 결과가 보여주는 것

MiniMax는 다음과 같은 점수를 보고했습니다:

SWE-Bench Pro: 59.0%
Terminal-Bench 2.1: 66.0%
BrowseComp (자율 웹 검색): 83.5%
KernelBench Hard: 28.8%
MCP Atlas: 74.2%

SWE-Bench Pro 점수가 가장 핵심적인 수치입니다. 참고로, 동일한 벤치마크에서 GPT-5.5는 58.6%, Gemini 3.1 Pro는 54.2%를 기록했습니다. 하지만 M3 출시 직전에 공개된 Claude Opus 4.8은 69.2%를 기록했습니다. 따라서 M3는 일부 프론티어 (frontier) 모델들과 경쟁할 만한 수준이지만, 현재 리더보드 최상단에 위치하지는 않습니다.

여기에는 중요한 주의 사항이 있습니다. 이 벤치마크들은 MiniMax가 Claude Code를 스캐폴딩 (scaffolding)으로 사용하여 자체 인프라에서 실행한 것입니다. NerdLevelTech의 언급에 따르면, 비교 대상 또한 이전 베이스라인 (Opus 4.7, 4.8이 아닌)을 사용했기 때문에 실제 격차보다 작아 보일 수 있습니다. 출시 당시 Artificial Analysis와 같은 서비스의 독립적인 제3자 평가는 아직 대기 중인 상태였습니다.

네이티브 멀티모달리티 (Native Multimodality) 및 에이전트 학습 (Agentic Training)

M3는 비전 어댑터 (vision adapters)를 단순히 덧붙인 텍스트 모델이 아니라, 텍스트, 이미지, 비디오 데이터가 교차 배치된 (interleaved) 상태로 처음부터 학습되었습니다. M3는 데스크톱 컴퓨터 조작을 지원하며, MiniMax는 내부 테스트를 통해 이를 입증했습니다. 모델은 12시간에 걸쳐 ICLR 2025 논문을 자율적으로 재현해냈으며, NVIDIA Hopper GPU에서 CUDA FP8 GEMM 커널을 최적화하여 147번의 반복 (iterations) 후 9.4배의 속도 향상을 달성했습니다.

훈련 파이프라인은 개발자 간의 협업을 모방하는 대화형 사용자 시뮬레이터 프레임워크 (interactive user simulator framework)를 사용하여, 모델이 단일 패스 명령 (single-pass commands)을 실행하는 대신 솔루션을 반복적으로 개선 (iterate)할 수 있도록 합니다. MiniMax Code 플랫폼은 에이전트가 작업 중간에 접근 방식을 동적으로 조정할 수 있는 "생성자+검증자 (Producer+Verifier)" 에이전트 분해 (agent decomposition) 방식을 통해 이를 제공합니다.

액세스 방법

개발자는 MiniMax M3 개발자 가이드에 상세히 설명된 세 가지 통합 경로를 이용할 수 있습니다.

MiniMax Platform API — platform.minimax.io를 통한 퍼스트 파티 (First-party) 액세스입니다. 이 API는 OpenAI와 호환됩니다:

curl https://api.minimax.io/v1/chat/completions \
  -H "Authorization: Bearer $MINIMAX_API_KEY" \
  -H "Content-Type: application/json" \
...

OpenRouter — 모델 식별자로 minimax/minimax-m3를 사용하여 MiniMax 계정 없이 직접 액세스할 수 있습니다. 모든 OpenAI 호환 클라이언트와 작동합니다.

셀프 호스팅 (Self-hosting) — MSA 아키텍처를 지원하도록 업데이트된 vLLM 또는 SGLang이 필요합니다. 2026년 6월 9일 기준으로, 약속된 오픈 웨이트 (open-weight) 출시는 초기 10일의 기간을 지나 지연되었음을 유의하십시오.

가격 및 실무적 고려 사항

표준 가격은 입력 토큰 100만 개당 $0.60, 출력 토큰 100만 개당 $2.40이며, 출시 50% 할인 적용 시 $0.30/$1.20이 됩니다. 이는 유사한 폐쇄형 프런티어 모델 (closed-source frontier models)과 비교했을 때 현저히 저렴하며 — Claude Opus 가격의 약 5~10% 수준 — 비용이 주요 제약 사항인 대규모 에이전트 워크플로 (agentic workflows)에서 M3를 평가해 볼 가치가 있게 만듭니다.

통합 전 유의해야 할 몇 가지 사항은 다음과 같습니다:

컨텍스트 윈도우 (Context window) ≠ 메모리. 100만 토큰의 컨텍스트 윈도우가 장기 실행되는 멀티 턴 에이전트 (multi-turn agents)를 위한 외부 메모리 관리 (external memory management)를 대체하지는 않습니다. 세션 전반에 걸친 장기적인 일관성을 유지하기 위해서는 여전히 전용 메모리 인프라가 필요합니다.

벤치마크에 대한 회의론은 정당합니다. 벤더(Vendor)가 보고한 수치는 시작점일 뿐, 최종 판결이 아닙니다. 벤치마크 비교를 바탕으로 아키텍처 결정을 내리기 전에 독립적인 평가를 기다리십시오.

규제 맥락. MiniMax는 상하이에 본사를 두고 있으며, 기업이 국가 정보 활동에 협력할 것을 요구하는 중국의 2017년 국가정보법(National Intelligence Law)의 적용을 받습니다. 구체적인 보안 문제가 확인된 것은 아니지만, 이는 API를 통해 민감하거나 독점적인 데이터를 처리하는 팀에게 구조적인 고려 사항입니다.

라이선스 약관 적용. 오픈 웨이트 (Open-weights) 버전이라 할지라도 상업적 이용은 MiniMax의 라이선스 약관을 따릅니다. 프로덕션 제품을 구축하기 전에 이를 검토하십시오.

실제로 무엇이 새로운가

MSA 아키텍처가 실질적인 기여입니다. 100만 토큰의 컨텍스트 윈도우 (Context window)를 단순히 기술적으로 가능한 수준이 아니라 실질적으로 유용할 만큼 빠르게 만드는 것은, 단순히 연산(Compute) 문제를 해결하는 것이 아니라 메모리 액세스 (Memory access) 문제를 해결해야 함을 의미합니다. "KV outer gather Q" 패턴은 단순히 서류상의 FLOPs를 줄이는 것이 아니라 GPU 메모리 대역폭 (Memory bandwidth) 제약을 해결하기 위한 구체적인 엔지니어링 선택입니다.

M3가 긴 컨텍스트의 에이전트적 작업 (Agentic tasks)을 위한 필수 모델이 될지는 독립적인 벤치마크 검증과 실제 오픈 웨이트 출시 여부에 달려 있습니다. 하지만 어떤 모델을 사용하게 되든 희소 주의 (Sparse attention)에 대한 아키텍처적 접근 방식은 이해할 가치가 있습니다. 긴 컨텍스트를 경제적으로 실행 가능하게 만드는 동일한 문제가 업계 전반에 적용되기 때문입니다.

주요 출처: MiniMax M3 official blog. The Decoder 및 NerdLevelTech의 추가 분석.