중국의 코딩 AI가 격차를 빠르게 좁히고 있다

요약

중국 MiniMax가 GPT-5.5와 Gemini 3.1 Pro를 앞서는 성능의 오픈 웨이트 코딩 모델 M3를 출시했습니다. M3는 100만 토큰의 컨텍스트 윈도우와 멀티모달 기능을 갖추었으며, 서구권 모델 대비 5-10% 수준의 매우 낮은 비용을 제공합니다.

핵심 포인트

MiniMax M3는 SWE-Bench Pro에서 59%를 기록하며 프런티어 모델에 근접함
서구권 모델 대비 1/10 수준의 파격적인 비용 경쟁력 확보
100만 토큰 컨텍스트 윈도우와 네이티브 멀티모달리티 지원
중국 AI 연구소들의 빠른 모델 출시로 코딩 AI 시장의 가격 전쟁 가속화

📖 차트와 삽입된 출처가 포함된 전체 버전을 ComputeLeap에서 읽어보세요 →

6월 1일, MiniMax는 SWE-Bench Pro에서 59%의 점수를 기록하며 GPT-5.5와 Gemini 3.1 Pro를 근소하게 앞지른 오픈 웨이트 (open-weights) 코딩 모델인 M3를 출시했습니다. 이 모델은 100만 토큰의 컨텍스트 윈도우 (context window)를 지원하며, 이미지와 비디오 입력을 네이티브로 처리할 수 있고, 비용은 서구권의 프런티어 모델 (frontier models)이 청구하는 금액의 약 5-10% 수준입니다. 이는 오픈 웨이트 모델이며, 중국에서 개발되었습니다.

이것은 단순한 벤치마크상의 새로움이 아닙니다. 이는 AI 지원 코딩의 경제성을 무너뜨리고 있는 가격 전쟁의 최신 일격이며, 그 영향은 그 어떤 리더보드 순위보다 더 깊은 곳에 맞닿아 있습니다.

계산법을 바꾼 18일간의 파도

4월 7일부터 4월 24일 사이, 4개의 중국 AI 연구소(labs)가 18일이라는 기간 동안 경쟁적인 오픈 웨이트 코딩 모델들을 출시했습니다:

모델	연구소 (Lab)	SWE-Bench Pro	출력 비용 (100만 토큰당)	vs. Opus 4.7
GLM-5.1	Z.ai	58.4%	$3.50	14%
...

Claude Opus 4.7은 100만 출력 토큰당 $25를 청구하며 64.3%로 선두를 달리고 있습니다. 4월의 그 파도 속에 있었던 모든 모델은 아주 적은 비용으로 경쟁력 있는 코딩 성능을 제공했습니다. 예를 들어 Kimi K2.6은 GPT-5.5와 동일한 58.6%를 기록하면서도 가격은 10분의 1 수준이었습니다.

MiniMax M3가 실제로 가져오는 것

M3는 세 가지 프런티어 역량을 단일 아키텍처 (architecture)에 결합한 최초의 오픈 웨이트 모델입니다: 프런티어 수준의 코딩, 100만 토큰의 컨텍스트 윈도우, 그리고 네이티브 멀티모달리티 (multimodality)입니다.

SWE-Bench Pro: 59.0% (GPT-5.5를 능가하며, Opus 4.7에 근접)
Terminal-Bench 2.1: 66.0%
MCP Atlas: 74.2%
BrowseComp: 83.5% (Opus 4.7의 79.3%를 상회)

컨텍스트 윈도우 (context window)는 MiniMax Sparse Attention (MSA)를 기반으로 작동하며, 백만 토큰 규모에서 토큰당 연산량을 이전 세대의 20분의 1로 줄였습니다.

⚠️ 모든 M3 벤치마크 점수는 제조사 보고 기준입니다. 출시 당시 Artificial Analysis 및 LMArena의 독립적인 점수는 아직 대기 중이었습니다. Opus 4.8은 SWE-Bench Pro에서 M3를 10점 이상 앞서고 있습니다 (69.2% vs 59.0%).

충돌 경로: 수익화 vs. 범용화 (Monetize vs. Commoditize)

서구권 스택은 수익화 (monetizing) 중입니다. GitHub Copilot은 Microsoft의 첫 자체 개발 코딩 모델인 MAI-Code-1-Flash를 프리미엄 구독 서비스 내에 포함시켰습니다. Anthropic은 Opus에 대해 출력 100만 토큰당 25달러를 부과합니다.

중국권 스택은 범용화 (commoditizing) 중입니다. MiniMax, DeepSeek, Qwen, Moonshot, 그리고 Z.ai는 거의 매주 단위로 이전 모델보다 저렴한 오픈 웨이트 (open-weights) 모델을 출시하고 있습니다. Qwen3.7 Plus는 입력 100만 토큰당 0.40달러에 멀티모달 에이전트 코딩 (multimodal agentic coding)을 제공합니다. DeepSeek V4-Flash는 출력 100만 토큰당 0.28달러를 달성하며, 이는 Opus 가격의 1.1% 수준입니다.

서구권의 프리미엄 스택은 가격을 정당화하기 위해 성능 격차를 유지해야 합니다. 중국의 오픈 웨이트 스택은 그 격차를 좁혀야 합니다. 양측 모두 성공 가도를 달리고 있으며, 이는 충돌이 점점 가까워지고 있음을 의미합니다.

벤치마크 격차는 실재하지만, 줄어들고 있다

Claude Opus 4.8은 SWE-Bench Pro에서 69.2%를 기록하며, M3의 59.0%보다 무려 10점 앞서 있습니다. Terminal-Bench 2.1에서는 그 격차가 8.6점입니다.

하지만 6개월 전만 해도 가장 뛰어난 중국산 오픈 웨이트 코딩 모델의 점수는 40% 초반대였습니다. 오늘날 여러 중국 모델이 55%에서 60% 사이에 밀집해 있습니다. 격차는 반년 만에 20점 이상에서 약 10점 정도로 축소되었습니다.

실제 서비스 배포 (production deployments) 환경에서는

Qwen3.7 Max가 SWE-Bench Pro에서 60.6% 달성 — 해당 벤치마크에서 가장 강력한 중국 모델입니다. Qwen3-Coder-Next는 80B MoE (활성 파라미터 3B)로 구동되며, SWE-Bench Verified에서 70.6%를 기록하여 10~20배 더 큰 모델들과 경쟁할 만한 성능을 보여줍니다.

Microsoft의 HN 커뮤니티 벤치마크에서도 MAI-Code-1-Flash가 Qwen3.6-35B와 비교했을 때 49.5%를 기록했습니다. 이제 중국의 오픈 웨이트 (open-weight) 계층은 모든 이들이 기준으로 삼는 베이스라인 (baseline)이 되었습니다.

핵심 요약 (The Bottom Line)

서구권은 가장 유능한 코딩 AI를 만들고 있습니다. 중국은 가장 접근성이 높은 AI를 만들고 있습니다. 현재로서는 두 쪽 모두 옳습니다.

하지만 100만 토큰당 25달러인 모델과 100만 토큰당 1.20달러인 모델 사이의 성능 격차가 20점에서 10점으로 좁혀질 때, 경제 논리가 작동하기 시작합니다. MiniMax M3는 단순히 격차를 좁히는 모델이 아닙니다. 격차의 축소가 필연적으로 느껴지게 만드는 모델입니다.

코딩의 해자 (moat)가 아직 무너진 것은 아닙니다. 하지만 수위가 빠르게 높아지고 있습니다.

원문 출처: ComputeLeap

AI 자동 생성 콘텐츠

원문 바로가기