중국의 오픈 웨이트 (Open-weight) 전략은 더 이상 단순한 '추격'이 아닙니다. 이는 출시 속도를 무기로 한 전략이 되고 있습니다.

중국의 오픈 웨이트 (Open-weight) 전략은 더 이상 단순한 "추격"이 아닙니다. 이는 출시 속도 (release-cadence)를 무기로 한 전략이 되고 있습니다. 이번 달, 선도적인 폐쇄형 (closed) 연구소들이 접근 제어, 출시 지연, 내부 출시 마찰 문제에 직면한 사이, 중국 연구소들은 대규모의 에이전트/코딩 지향적, 롱 컨텍스트 (long-context) 모델들을 공개 개발자 생태계로 다수 출시했습니다.

저는 이를 "폐쇄형 연구소들이 끝났다"라고 표현하고 싶지는 않습니다. 더 정확한 프레임워크는 다음과 같습니다:

폐쇄형 연구소들은 여전히 프리미엄 프런티어 (frontier) 영역과 기업 지출의 상당 부분을 지배하고 있습니다. 하지만 중국의 오픈 웨이트 (open-weight) 연구소들은 속도, 비용, 배포, 그리고 기본 개발자 워크플로우 (developer-workflow) 계층에서 승리하고 있습니다. 이는 중기적으로 리더보드 (leaderboard)보다 더 중요할 수 있습니다.

사실 확인 (Claim-check): 이 포스트의 방향성은 맞습니다.

중국 측의 사례들이 이를 뒷받침합니다. https://t.co/8l5VZLWr2F 의 GLM-5.2는 Hugging Face에서 라이브 상태이며, MIT 라이선스를 따릅니다. 이 모델은 1M 토큰 컨텍스트 (context), 더 강력한 코딩 능력, 유연한 사고 노력 (thinking effort), 그리고 로컬/vLLM 스타일의 배포 경로를 갖춘 플래그십 롱 호라이즌 (long-horizon) 모델로 제시되었습니다. 자체 모델 카드에 따르면 이 모델은 지역적 제한이 없는 MIT 라이선스 하의 "순수 오픈 (Pure Open)"이며, 추론, 코딩, 터미널 및 에이전트 (agentic) 작업 전반에 걸쳐 Claude, GPT, Gemini, DeepSeek 및 MiniMax와 비교한 강력한 벤치마크 비교 수치를 나열하고 있습니다.

MiniMax M3 또한 Hugging Face에서 확인할 수 있습니다. 해당 모델 카드는 1M 컨텍스트 (context), 총 약 428B 파라미터 및 23B 활성 파라미터를 가진 네이티브 멀티모달 (multimodal) 모델로 설명하며, 코딩, 롱 호라이즌 에이전트 (agentic) 작업, 비디오/이미지 이해 및 컴퓨터 사용 (computer-use) 입력을 목표로 합니다. 중요한 주의 사항은, Hugging Face 라이선스가 minimax-community로 기재되어 있다는 점입니다. 따라서 아무런 조건 없이 이를 "오픈 소스 (open source)"라고 부르는 것은 너무 느슨한 표현이며, "오픈 웨이트 (open-weight)" 또는 "커스텀 커뮤니티 라이선스 하에 공개된 가중치 (publicly released weights)"라고 부르는 것이 더 안전합니다.

Kimi K2.7-Code 역시 실재합니다. Moonshot의 Hugging Face 카드에 따르면, 이 모델은 Kimi K2.6을 기반으로 구축된 코딩 중심의 에이전트 모델 (agentic model)로, 총 파라미터 수는 1T, 활성화 파라미터(activated parameters)는 32B, 컨텍스트 길이는 256K이며, MoE (Mixture-of-Experts) 아키텍처, 비전 인코더 (vision encoder), 인터리브형 사고/도구 사용 (interleaved thinking/tool use) 기능을 갖추고 있습니다. 또한 K2.6보다 사고 토큰 (thinking-token) 사용량이 약 30% 낮습니다. 또한 코드와 가중치(weights) 모두 수정된 MIT 라이선스 (Modified MIT License) 하에 공개된다고 명시되어 있습니다.

폐쇄형 연구소 (closed-lab) 측의 사례들도 확인됩니다. Axios는 트럼프 행정부가 보안 우려를 이유로, GPT-5.6의 초기 출시를 광범위한 공개 이전에 정부가 승인한 소수의 파트너 그룹으로 제한할 것을 OpenAI에 요청했다고 보도했습니다. Reuters 역시 동일한 기본 구조를 보도했습니다. 즉, GPT-5.6은 선택된 파트너들에게 제한적 프리뷰 (limited preview) 형태로 제공되며, 정부가 해당 프리뷰 기간 동안 "고객 한 명 한 명을 승인하며" 접근 권한을 부여할 것이라는 내용입니다.

Anthropic의 사례는 훨씬 더 명확합니다. Anthropic은 2026년 6월 9일에 Claude Fable 5와 Claude Mythos 5를 출시했으나, 6월 12일에 동일한 공지사항을 업데이트하여 접근이 불가능하다고 밝혔습니다. Anthropic은 별도로 미국의 수출 통제 지침 (export-control directive)에 따라 외국 국적자의 Fable 5 및 Mythos 5 접근을 중단해야 했으며, 규정 준수를 보장하기 위해 모든 고객에 대한 접근을 비활성화할 수밖에 없었다고 설명했습니다.

Gemini에 관한 지점 또한 뒷받침되지만, 신중하게 표현되어야 합니다. Google의 5월 19일 Gemini 3.5 발표에서는 3.5 Flash로 시작하며 "3.5 Pro를 열심히 개발 중"이라고 밝혔고, "다음 달" 출시를 기대한다고 언급했습니다. 이후 Business Insider는 Google이 피드백을 수집하고 모델을 미세 조정하는 동안, Gemini 3.5 Pro의 출시 목표가 계획된 6월에서 7월로 밀려났다고 보도했습니다.

가장 적절한 헤드라인

가장 좋지 않은 헤드라인은 다음과 같습니다:

"중국이 폐쇄형 AI 연구소들을 이겼다."

더 나은 헤드라인은 다음과 같습니다:

미국의 폐쇄형 연구소들이 허가 계층 (permissioning layer)에 진입하는 동안, 중국은 출시 속도 계층 (release-cadence layer)에서 승리하고 있다.

또는 더 날카로운 표현으로는:

오픈 웨이트(Open-weight)의 중국은 제품을 출시하고, 폐쇄형 연구소(Closed-lab)의 미국은 접근 권한을 협상한다.

그것이 바로 비대칭성(asymmetry)입니다. 한쪽은 가중치(weights), API, 모델 카드(model cards), 로컬 서빙 경로(local serving paths), 양자화(quantizations), 코딩 도구 및 라우터 통합(router integrations)으로 시장을 가득 채우고 있습니다. 다른 한쪽은 여전히 가장 높은 천장(ceiling)을 보유하고 있을지 모르지만, 그 천장은 정부 검토, 고객 승인, 단계별 프리뷰, 구독 티어, 안전 라우팅(safety routing), 기업 계약 및 정치적 리스크로 점점 더 겹겹이 둘러싸이고 있습니다.

진정한 전략적 변화

과거의 AI 사고 모델은 다음과 같았습니다:

최고의 모델이 승리한다.

새로운 모델은 다음과 같습니다:

달러당, 리스크당, 배포 가능한 최고의 모델이 승리한다.

여기에는 최소 7가지 차원이 있습니다:

능력 (capability)
비용 (cost)
지연 시간 (latency)
출시 주기 (release cadence)
컨텍스트 길이 (context length)
로컬 배포 가능성 (local deployability)
접근 확실성 (access certainty)

중국의 오픈 웨이트(open-weight) 연구소들은 이 7가지 모두, 특히 비용, 주기, 컨텍스트 및 배포 가능성을 공격하고 있습니다. 미국의 폐쇄형(closed) 연구소들은 여전히 정점의 능력, 기업 신뢰도, 안전 인프라, 조달, 법적 책임 및 프리미엄 지원 측면에서 우위를 점하고 있습니다. 하지만 개발자들에게 항상 절대적으로 최고의 모델이 필요한 것은 아닙니다. 그들에게 필요한 것은 충분히 성능이 좋고, 지금 바로 사용 가능하며, 지속적으로 실행하기에 충분히 저렴하고, 에이전트 루프(agent loop)에 교체하기 쉬운 모델입니다.

Vercel의 2026년 6월 AI 게이트웨이 데이터는 실제 운영 환경에서도 동일한 패턴을 보여줍니다. DeepSeek의 토큰 점유율은 한 달 만에 1% 미만에서 17%로 급증한 반면, 지출 점유율은 1% 근처에 머물렀습니다. 코딩 에이전트(coding-agent) 워크로드에서 DeepSeek는 토큰 볼륨의 49%를 차지했지만 비용은 4%에 불과했던 반면, Anthropic은 토큰의 28%를 차지했지만 비용의 70%를 차지했습니다. Vercel의 해석은 직설적입니다. 저비용 모델들이 단순한 실험을 넘어 실제 운영 작업을 위한 품질 기준을 통과했다는 것입니다.

OpenRouter의 100T 토큰 연구는 이와 동일한 이야기가 더 장기적으로 진행되고 있음을 보여줍니다. 중국의 오픈 소스/오픈 웨이트 모델의 주간 점유율은 2024년 말 1.2% 정도로 낮았으나, 일부 주에는 전체 사용량의 거의 30%까지 성장했으며, 1년의 기간 동안 주간 토큰 볼륨의 평균 약 13%를 차지했습니다. 보고서는 이러한 성장의 원인을 경쟁력 있는 품질, 빠른 출시 주기, 그리고 Qwen 및 DeepSeek와 같은 모델 제품군(families)의 밀도 높은 반복(iteration) 덕분이라고 분석합니다.

이 게시물이 정확하게 짚어낸 점들

이 게시물은 일정의 비대칭성 (calendar asymmetry)을 정확히 짚어냈습니다. 2026년 6월, 공개된 신호는 다음과 같습니다: GLM-5.2, MiniMax M3, 그리고 Kimi K2.7-Code가 오픈 웨이트 (open-weight) 생태계에 안착하고 있는 반면, GPT-5.6은 준비 단계에 머물러 있고, Fable/Mythos는 출시 후 폐쇄되었으며, Gemini 3.5 Pro는 뒤처졌습니다. 이것이 중국이 최고의 모델을 보유하고 있음을 증명하는 것은 아니지만, 이번 달 중국이 훨씬 더 깔끔한 공개 출시 (public shipping) 스토리를 보여주고 있다는 점은 증명합니다.

개발자 심리를 정확히 파악했습니다. 개발자들은 OpenAI, Anthropic, Google, Moonshot, https://t.co/8l5VZLWr2F 또는 MiniMax에 충성하지 않습니다. 그들은 작동하는 소프트웨어에 충성합니다. 만약 어떤 모델이 더 저렴하고, 사용 가능하며, 라우팅 (routing)이 쉽고, 코딩을 잘하며, 정부 검토로 인해 갑자기 사라지지 않는다면, 그 모델은 트래픽을 얻게 됩니다.

전략적 성과를 정확히 짚었습니다. 미-중 경제 및 보안 검토 위원회 (U.S.-China Economic and Security Review Commission)는 중국이 오픈 소스 (open-source) AI에 "올인"하고 있다고 설명했습니다. 대부분의 중국 연구소들이 코드와 웨이트 (weights)를 공개하고, 글로벌 경쟁사보다 낮은 비용을 책정하며, 채택이 반복 (iteration)과 추가 채택을 이끄는 피드백 루프 (feedback loop)를 생성하고 있다는 것입니다. 또한 보고서는 Qwen이 Hugging Face에서 가장 큰 모델 생태계가 되었으며, 보고서 작성 당시 100,000개 이상의 파생 모델 (derivatives)이 존재한다고 밝혔습니다.

성능 격차의 업데이트를 정확히 반영했습니다. 스탠퍼드(Stanford)의 2026 AI 인덱스 (AI Index)에 따르면, 미-중 모델 성능 격차는 "사실상 좁혀졌으며", 2025년 초 이후 미국과 중국 모델이 여러 차례 선두를 주고받았고, 2026년 3월 기준으로 미국의 최상위 모델이 단 2.7% 차이로 앞서고 있습니다.

이 게시물이 과장하고 있는 점

첫째, "오픈 소스 (open-source)"라는 용어를 문자 그대로 사용했다면 과장된 것입니다. GLM-5.2는 MIT 라이선스이고, Kimi K2.7-Code는 수정된 MIT (Modified MIT) 라이선스이며, MiniMax M3는 커스텀 MiniMax 커뮤니티 라이선스 하에 있습니다. 이들은 모두 동일한 것이 아니며, "오픈 웨이트 (open weights)"가 보통 더 정확한 포괄적 용어입니다.

둘째, 폐쇄형 연구소(closed labs)가 모든 분야에서 패배하고 있다는 의미라면 이는 과장된 것입니다. Vercel의 프로덕션 데이터에 따르면, Anthropic은 5월 기준으로 여전히 지출액의 65%를 차지했으며, AI 앱 생성, 백오피스 에이전트(back-office agents), 코딩 에이전트(coding agents)와 같은 고부가가치(high-stakes) 사용 사례 전반에서 70~80%의 지출을 점유하고 있습니다. 폐쇄형 연구소들이 프리미엄 계층(premium layer)을 잃고 있는 것이 아니라, 저가형 볼륨 계층(cheap volume layer)을 잃고 있는 것입니다.

셋째, Google의 Gemini 지연을 정부의 규제와 동일하게 취급한다면 이는 과장된 것입니다. GPT-5.6 및 Fable/Mythos는 접근 제어(access-control)에 관한 이야기입니다. 반면 Gemini 3.5 Pro는 제품 품질 및 타이밍에 관한 이야기로 보이는데, Business Insider의 보도에 따르면 Google은 7월 이전에 더 많은 피드백과 미세 조정(tweaks)을 원했습니다.

넷째, 중국의 모델들이 일률적으로 미국의 프런티어 모델(frontier models)을 능가한다고 말한다면 이는 과장된 것입니다. GLM-5.2의 자체 벤치마크 표는 엇갈린 결과를 보여줍니다. 매우 경쟁력이 높지만, 일부 어려운 코딩 및 에이전트(agentic) 벤치마크에서는 Claude Opus 4.8 또는 GPT-5.5에 뒤처지는 반면, 다른 벤치마크에서는 앞서거나 거의 대등한 수준을 보입니다. 더 방어 가능한 주장은 중국의 오픈 모델들이 이제 충분히 많은 고볼륨 워크로드(high-volume workloads)에서 비용과 가용성이 우위를 점할 수 있을 만큼 충분히 근접해 있다는 것입니다.

누락된 핵심 개념: “허가 위험 (permissioning risk)"

누락된 핵심 용어는 다음과 같습니다:

허가 위험 (permissioning risk)

폐쇄형 프런티어 모델은 이제 오픈 웨이트 (open-weight) 모델에는 흔히 없는 몇 가지 위험을 수반합니다:

출시 지연 위험 (release delay risk)
고객 승인 위험 (customer approval risk)
국적 제한 위험 (nationality restriction risk)
API 취소 위험 (API revocation risk)
구독 티어 위험 (subscription-tier risk)
정부 검토 위험 (government review risk)
수출 통제 위험 (export-control risk)
벤더 정책 위험 (vendor-policy risk)

GPT-5.6과 관련하여, Axios는 정부가 OpenAI에 초기 출시를 승인된 파트너로 제한할 것을 요청했다고 보도했습니다. Fable/Mythos의 경우, Anthropic은 정부 지침으로 인해 외국인에 대한 접근을 중단해야 했으며, 이후 준수를 위해 모든 고객에 대해 모델 사용을 비활성화해야 했다고 밝혔습니다. 이러한 사건들은 개발자들에게 새로운 교훈을 줍니다: 최고의 모델이 반드시 가장 신뢰할 수 있는 모델은 아닐 수도 있다는 점입니다.

이 지점이 바로 중국의 오픈 웨이트 (open-weight) 전략이 강력해지는 부분입니다. 모든 벤치마크에서 승리할 필요는 없습니다. 단지 다음과 같기만 하면 됩니다:

충분히 좋은 수준 (good enough)
충분히 저렴한 수준 (cheap enough)
충분히 사용 가능한 수준 (available enough)
포크(fork) 가능한 수준 (forkable enough)
충분히 로컬에서 실행 가능한 수준 (local enough)

이는 "누가 가장 똑똑한 챗봇을 가지고 있는가?"라는 경쟁과는 매우 다른 차원의 레이스입니다.

두 번째 누락된 개념: "역량으로서의 출시 주기 (release cadence as capability)"

사람들은 보통 모델 출시를 마케팅 이벤트로 취급합니다. 하지만 그렇지 않습니다. 출시 주기 (release cadence) 자체가 하나의 역량입니다.
빈번한 공개 출시는 다음과 같은 것들을 만들어냅니다:
개발자 습관 (developer habit)
라우터 통합 (router integration)
벤치마크 피드백 (benchmark feedback)
커뮤니티 미세 조정 (community fine-tunes)
양자화 (quantizations)
에이전트 프레임워크 지원 (agent-framework support)
문서/튜토리얼 (docs/tutorials)
버그 보고 (bug reports)
엔터프라이즈 파일럿 (enterprise pilots)
사용 데이터 (usage data)
리텐션 코호트 (retention cohorts)

OpenRouter의 보고서는 오픈 소스 모델 아레나 (open-source model arena)가 매우 역동적이라고 명시적으로 밝히고 있습니다. 역량 있는 새로운 오픈 모델들은 몇 주 안에 의미 있는 사용량을 확보할 수 있으며, MiniMax는 한 분기 만에 트래픽이 0에서 상당한 수준으로 증가했고, Moonshot 모델들은 기존의 OSS 리더들과 경쟁할 정도로 빠르게 성장했습니다.
이것이 바로 오픈 웨이트 (open-weight) 플라이휠 (flywheel)입니다:
모델 출시
→ 개발자 테스트
→ 라우터 통합
→ 커뮤니티 양자화
→ 에이전트 프레임워크 적응
→ 실제 워크로드 등장
→ 벤치마크 및 이슈 표면화
→ 다음 모델 개선
→ 반복

폐쇄형 연구소 (Closed labs)들이 여전히 더 뛰어난 시스템을 훈련할 수는 있지만, 이를 광범위하고 안정적으로 출시하지 못한다면 이 플라이휠의 일부를 놓치게 됩니다.

세 번째 누락된 개념: "볼륨 레이어 vs 프리미엄 레이어 (the volume layer vs the premium layer)"

이번 달의 결과가 중국이 AI 스택 전체를 점유했다는 것을 증명하는 것은 아닙니다. 다만 다음과 같은 분리 (split)를 시사합니다:

프리미엄 레이어 (Premium layer):
Claude, GPT, Gemini
가장 높은 이해관계가 걸린 추론 (highest-stakes reasoning)
엔터프라이즈 지원 (enterprise support)
규제 대상 구매자 (regulated buyers)
동급 최강의 신뢰성 (best-in-class reliability)
안전/컴플라이언스 래퍼 (safety/compliance wrappers)

볼륨 레이어 (Volume layer):
DeepSeek, Qwen, GLM, Kimi, MiniMax
높은 토큰 사용량 (high token volume)
코딩 에이전트 (coding agents)
RAG
긴 컨텍스트 워크플로우 (long-context workflows)
저렴한 반복 (cheap iteration)
오픈/로컬 배포 (open/local deployment)

Vercel의 데이터는 이러한 분리를 가시화합니다. DeepSeek는 아주 적은 비용으로 엄청난 토큰 사용량을 확보한 반면, Anthropic은 지출 규모를 계속해서 주도했습니다.
폐쇄형 연구소에 대한 진짜 위협은 오픈 웨이트 모델이 즉각적으로 모든 자금을 가져가는 것이 아닙니다. 폐쇄형 연구소가 L3 지원 (L3 support) 역할로 전락하는 것입니다:
먼저 오픈 웨이트 모델을 사용한다.
테스트를 실행한다.
평가 (evals)를 실행한다.
저렴한 모델이 실패할 때만 GPT/Claude/Gemini로 에스컬레이션(escalate)한다.

이는 기본 설정을 역전시킨다. 일단 개발자들이 저렴한 오픈 모델 (open models)을 중심으로 구축하기 시작하면, 프리미엄 폐쇄형 모델 (closed models)은 예외적인 경로가 된다.

이번 달이 폐쇄형 연구소 (closed labs)들에게 유독 힘들게 느껴지는 이유

폐쇄형 연구소들은 네 가지 힘에 의해 동시에 압박을 받고 있다.

첫째, 정부의 접근 제어 (access control): GPT-5.6은 제한적 프리뷰/고객 승인 경로를 통해 진행 중인 것으로 알려졌으며, Fable/Mythos는 수출 통제 지침 (export-control directive)에 걸렸다.

둘째, 제품 출시 타이밍: Gemini 3.5 Pro는 Google의 5월 발표 이후 출시될 것으로 예상되었으나, 7월로 밀려난 것으로 알려졌다.

셋째, 비용 압박: Vercel의 보고에 따르면 DeepSeek V4 Flash는 100만 토큰당 입력 $0.14 / 출력 $0.28에 출시되었으며, 이는 유사한 Anthropic 모델보다 약 20~~50배 저렴하고, Qwen 3.6 Plus 및 Kimi K2.6과 같은 다른 가성비 플래그십 (value-tier flagships) 모델들보다 8~~12배 저렴하다.

중국의 오픈 웨이트 (Open-weight) 전략은 더 이상 단순한 '추격'이 아닙니다. 이는 출시 속도를 무기로 한 전략이 되고 있습니다.

요약

핵심 포인트

댓글