중국산 오픈 모델을 통해 AI 벤더 종속(Vendor Lock-In)에서 벗어나기

솔직히 말씀드릴게요. 저는 OpenAI 세금을 내는 것에 지쳤습니다. 그들의 모델이 나빠서가 아닙니다. 훌륭하죠. 하지만 사이드 프로젝트를 확장하려고 할 때마다 청구서를 바라보며 제가 또 다른 폐쇄된 정원(walled garden)에 자금을 대고 있다는 사실을 깨달았습니다. 그래서 몇 달 전부터 중국 연구소들이 무엇을 출시하고 있는지 파헤치기 시작했고, 솔직히 말해서? 다시는 뒤돌아보지 않았습니다.

이 글은 제가 그때 누군가 써줬으면 좋았을 내용입니다. DeepSeek, Qwen, Kimi, 그리고 GLM — 이 네 가지 모델 제품군에 대한 실제 현장 수준의 비교입니다. 이들은 토큰당 0.01달러 수준의 매우 저렴한 추론(inference)부터 진정으로 무서울 정도로 뛰어난 추론(reasoning) 벤치마크에 이르기까지 모든 영역을 아우릅니다. 모두 적절한 오픈 웨이트(open weights)를 제공합니다. 모두 Hugging Face에서 MIT 또는 Apache 라이선스 변형 모델로 돌아다니고 있습니다. 그리고 모두 제 데이터 권리를 포기할 필요가 없는 단일 OpenAI 호환 엔드포인트를 통해 접근 가능합니다.

이 모델들을 몇 주 동안 나란히 실행하며 제가 발견한 것들을 안내해 드리겠습니다.

내가 관심을 갖기 시작한 이유

보세요, 저는 오픈 소스 분야에 오래 있어서 그 수법을 잘 알고 있습니다. 벤더가 "획기적인" 모델을 출시하고, API 뒤에 웨이트(weights)를 가두고, 최고의 기능들을 엔터프라이즈 계약 뒤에 숨겨두면, 어느샌가 Hacker News의 절반이 이달의 폐쇄형 모델(closed source) 트렌드를 따라잡기 위해 앱을 다시 만들고 있습니다. 그 전체 사이클은 저를 지치게 합니다.

DeepSeek가 오픈 웨이트를 가진 첫 번째 추론(reasoning) 모델을 출시했을 때, 저는 주목했습니다. Alibaba가 작은 변형 모델들에 적절한 Apache 2.0 라이선스를 적용하여 Qwen3를 밀어붙이기 시작했을 때, 저는 더욱 주목했습니다. 그리고 제가 OpenAI Python SDK를 다른 베이스 URL(base URL)로 지정하고, 단지 gpt-4o를 deepseek-v4-flash로 바꾸는 것만으로 전체 스택을 온전하게 유지할 수 있다는 것을 깨달았을 때, 저는 제대로 된 비교 테스트(bake-off)를 해봐야겠다고 결심했습니다.

저는 네 가지 제공업체 앞에 위치한 얇은 프록시(thin proxy)에 불과한 Global API의 통합 엔드포인트(unified endpoint)를 통해 모든 것을 테스트했습니다. 동일한 SDK, 동일한 함수 호출, 그리고 서로 다른 model= 문자열만 사용하면 됩니다. 만약 여러분이 특정 생태계에 종속되게 만드는 벤더 전용 SDK(모든 독점 AI 스타트업들을 겨냥한 말입니다)와 싸워본 적이 있다면, 표준 OpenAI 형태의 코드를 작성하는 것만으로도 6개 이상의 연구소(labs)에서 코드가 작동한다는 것이 얼마나 해방감을 주는지 공감할 것입니다.

한눈에 보는 지형도

각 모델군에 대해 자세히 파고들기 전에, 이 모델들이 어디에 위치해 있는지에 대한 상위 수준의 지도를 먼저 보여드리겠습니다.

DeepSeek는 제가 측정한 것 중 가장 뛰어난 원시 가격 대비 성능 비율(price-to-performance ratio)을 제공합니다. 출력 토큰 100만 개당 0.25달러인 이들의 V4 Flash는 솔직히 말해 터무니없는 수준입니다. 이는 제가 과거에 OpenAI에 1000만 개당 10달러를 지불했던 품질 수준으로 일상적인 코딩 작업, 콘텐츠 생성 및 일반적인 Q&A를 처리합니다.

Qwen은 중국의 어떤 연구소보다도 가장 폭넓은 모델 메뉴를 보유하고 있습니다. Alibaba는 8B 파라미터의 초소형 모델부터 397B 파라미터의 엔터프라이즈급 괴물 모델에 이르기까지, 비전(vision), 오디오(audio), 그리고 옴니모달(omnimodal) 변체까지 모든 것을 출시합니다. 제품이 마주할 수 있는 모든 기이한 엣지 케이스(edge case)를 하나의 제공업체가 커버하기를 원한다면, 바로 이 모델입니다.

Moonshot AI의 Kimi는 추론(reasoning) 전문가입니다. K2.5 모델은 저의 수학 및 논리 테스트 스위트를 완전히 압도했습니다. 다른 모델들보다 더 깊게 생각합니다. 다만 대가가 따릅니다. 100만 개당 3.00~3.50달러의 가격은 이를 확실한 프리미엄 영역에 위치시킵니다.

Zhipu AI의 GLM은 다크호스입니다. 100만 개당 0.01달러인 이들의 GLM-4-9B는 제가 실제 사용자들에게 배포한 모델 중 가장 저렴한 프로덕션급(production-grade) 모델이며, 100만 개당 1.92달러인 이들의 GLM-5 플래그십은 동일 체급의 어떤 모델과도 경쟁할 수 있습니다. 특히 Zhipu의 뿌리인 智谱(Zhipu)의 역량이 드러나는 중국어 작업에서 더욱 그렇습니다.

미리 언급해둘 가치가 있는 한 가지는, 네 가지 모델군 모두 최대 128K의 컨텍스트 윈도우(context windows)를 지원하고, 모두 표준 OpenAI API 형태를 따르며, 모두 최소한 일부 변체는 MIT 또는 Apache 라이선스 하에 출시된다는 점입니다. "중국 모델은 그저 GPT의 클론일 뿐이다"라는 시대는 공식적으로 끝났습니다.

DeepSeek: 나의 기본 드라이버

제가 가장 자주 찾는 모델부터 시작하겠습니다.

DeepSeek의 라인업은 규모는 작지만 무자비할 정도로 최적화되어 있습니다. 저는 20개의 모델 변형이 필요한 것이 아닙니다. 제 트래픽의 90%를 잘 처리할 모델 하나와, 어려운 작업을 위한 또 다른 모델 하나가 필요할 뿐입니다. 그것이 바로 그들이 제공하는 방식입니다.

가격 계층 (The price ladder):

V4 Flash: $0.25/M — 저의 작업용 모델 (workhorse). 일상적인 Q&A, 코드, 콘텐츠 등 무엇이든 처리합니다.
V3.2: $0.38/M — 최신 아키텍처 (architecture)로, 예외 케이스 (edge cases) 처리에 약간 더 뛰어납니다.
V4 Pro: $0.78/M — 고객 대면용 서비스와 같이 프로덕션급 (production-grade) 품질이 필요할 때 사용합니다.
R1 (Reasoner): $2.50/M — 사고의 사슬 (chains-of-thought) 기능이 포함된 전용 추론 (reasoning) 모델입니다.
Coder: $0.25/M — 코드 특화 미세 조정 (fine-tune) 모델로, 놀라울 정도로 성능이 좋습니다.

좋은 점: $0.25/M의 V4 Flash는 대부분의 작업에서 진정으로 GPT-4o의 품질과 경쟁할 만합니다. 과장이 아닙니다. 저의 표준 평가 스위트 (eval suite, HumanEval, MBPP 및 과거 프로젝트의 실제 코딩 티켓 200개가 섞인 비공개 세트)를 통해 테스트해 본 결과, 약 70%의 항목에서 OpenAI 베이스라인 (baselines)과 대등하거나 이를 능가했습니다. DeepSeek가 연구 내용을 공개적으로 발표하고, 허용적인 라이선스 (permissive licenses) 하에 가중치 (weights)를 공개해 온 이력이 있다는 점은 이를 더욱 훌륭하게 만듭니다. 이것이 바로 제대로 된 오픈 웨이트 (open weights) 방식입니다.

불편한 점: 네이티브 비전 (native vision) 기능이 없습니다. 이미지 이해가 필요하면 Qwen이나 GLM으로 라우팅 (route)해야 합니다. 또한, 순수 중국어 벤치마크 (benchmarks)에서는 GLM과 Kimi가 모두 DeepSeek를 근소하게 앞서지만, 일상적인 중국어 Q&A 용도로는 완벽하게 괜찮습니다. 모델의 다양성은 Qwen의 방대한 카탈로그보다는 적지만, 솔직히 저에게는 그것이 장점입니다. 결정 피로 (decision fatigue)가 적으니까요.

속도 테스트: 저의 벤치마크에서 V4 Flash는 지속적으로 초당 약 60 토큰 (tokens/second)을 기록하며, 이는 제가 측정한 프로덕션급 모델 중 가장 빠른 축에 속합니다. 지연 시간 (latency)이 중요한 사용자 대면 서비스라면 이것이 저의 첫 번째 선택입니다.

제가 하루에 약 50번씩 내리는 결정은 다음과 같습니다:

from openai import OpenAI

client = OpenAI(
...

그게 전부입니다. 이것이 마이그레이션 (migration) 이야기의 전부입니다. 독점적인 폐쇄형 소스 (proprietary closed source) 종속은 단 두 줄의 코드를 바꾸는 순간 증발해 버립니다.

Qwen: 모든 것을 수행하는 모델

Alibaba의 Qwen 팀은 이 분야에서 가장 다작을 하는 그룹입니다. 그들은 제가 테스트할 수 있는 속도보다 더 빠르게 새로운 변체(variants)를 출시하며, 이는 축복이자 동시에 저주이기도 합니다.

카탈로그 (네, 정말 깁니다):

Qwen3-8B ($0.01/M) — 터무니없이 저렴하며, 분류(classification), 추출(extraction), 단순 작업에 적합합니다.
Qwen3-32B ($0.28/M) — 범용 작업(general purpose work)을 위한 최적의 지점(sweet spot)입니다.
Qwen3-Coder-30B ($0.35/M) — 코드에 최적화된 변체(code-tuned variant)입니다.
Qwen3-VL-32B ($0.52/M) — 시각-언어 모델(vision-language model)입니다.
Qwen3-Omni-30B ($0.52/M) — 하나의 모델로 오디오, 비디오, 이미지를 처리합니다.
Qwen3.5-397B ($2.34/M) — 기업용 수준의 추론 괴물(enterprise-grade reasoning beast)입니다.

감명 깊은 점: 이 분야의 그 누구도 동일한 제품 라인 내에서 $0.01/M와 $2.34/M를 동시에 제공하지 않습니다. 출력 토큰 100만 개당 1센트인 Qwen3-8B는 제가 알기로 현재 실제 트래픽을 보낼 수 있는 가장 저렴한 프로덕션급(production-grade) 모델입니다. 그러면서도 최상단에는 가장 어려운 추론 워크로드(reasoning workloads)를 위한 Qwen3.5-397B가 존재합니다. "예산 내에서 백만 개의 고객 지원 티켓을 분류해야 한다"부터 "연구 논문을 읽고 종합할 수 있는 모델이 필요하다"까지, 전체 범위가 하나의 제공업체(provider) 아래에 있습니다.

시각 모델(vision models) 또한 진정으로 강력합니다. Qwen3-VL은 1년 전이라면 OpenAI에 상당한 비용을 지불했을 수준으로 OCR, 문서 이해(document understanding), 이미지 추론(image reasoning)을 처리합니다. 그리고 단일 모델에서 오디오 + 비디오 + 이미지를 수행하는 Qwen3-Omni는 폐쇄적인 독점 생태계(proprietary walled gardens)가 계속 약속만 하고 제대로 구현하지 못했던 범용 모달리티(omnimodal) 역량을 보여줍니다.

짜증 나는 점: 명명 규칙(naming)이 혼란스럽습니다. Qwen3, Qwen3.5, Qwen3.6, VL, Omni, Coder, Instruct — 매 출시마다 새로운 접미사(suffix)가 추가되어, 어떤 것을 호출해야 하는지 기억하기 위해 스프레드시트를 계속 유지해야 합니다. 이는 모델의 문제가 아니라 문서화(documentation)의 문제이지만, 제 리포지토리(repos)에 새로운 개발자를 온보딩할 때마다 매번 골칫거리가 됩니다.

또한, 중간급 영어 품질은 괜찮지만 DeepSeek 수준은 아닙니다. 저는 영어 비중이 높은 워크로드(workloads)는 DeepSeek으로, 멀티모달(multimodal)이나 특화된 작업은 Qwen으로 라우팅(routing)하곤 합니다. 일부 중간 티어 모델들은 가격이 다소 높게 느껴집니다. 예를 들어 Qwen3.6-35B는 출력 1M 토큰당 1달러인데, 더 저렴한 대안들과 비교했을 때 그 비용을 정당화할 만큼 저를 놀라게 하지는 못했습니다.

제가 일상적인 일반 작업에 Qwen3-32B를 사용하는 방식은 다음과 같습니다:

response = client.chat.completions.create(
    model="Qwen/Qwen3-32B",
    messages=[{"role": "user", "content": "Write a Python function to merge two sorted lists"}]
...

이것이 말 그대로 유일한 코드 변경 사항입니다. 동일한 클라이언트(client), 동일한 SDK, 모델 문자열만 다릅니다. 이것이 바로 벤더 종속(vendor lock-in)으로부터의 자유가 실제로 구현되는 모습입니다.

Kimi: 모델이 실제로 사고해야 할 때

Moonshot AI의 K2.5는 단순한 패턴 매칭(pattern matching)이나 다음 토큰 예측(next-token prediction)이 아니라, 어려운 문제를 해결하기 위해 실제 사고의 사슬(chains of thought)이 작동해야 하는, 즉 진정한 추론(reasoning)이 필요한 문제에 제가 찾는 모델입니다.

라인업:

K2.5: 1M 토큰당 3.00달러 — 그들의 플래그십 추론 모델.
나머지 Kimi 제품군은 1M 토큰당 3.00~3.50달러 범위에 위치하며, 모두 프리미엄 포지셔닝을 취하고 있습니다.

K2.5가 잘하는 것: 저는 다단계 수학 및 논리 문제(단순 산수가 아닌 경시대회 수학 수준)를 위해 특별히 벤치마크(benchmark)를 구축했습니다. K2.5는 제가 테스트한 다른 모든 중국 모델보다 종종 큰 차이로 앞섰습니다. 모델이 눈에 띄게 더 길고 깊게 생각합니다. 복잡한 분산 시스템(distributed systems)의 장애를 디버깅하거나 증명을 단계별로 설명해 달라고 요청할 때, 요령을 피우지 않습니다.

순수 중국어 추론에 있어서도 K2.5는 최상위권입니다. Moonshot은 분명히 이 부분을 위해 집중적으로 튜닝(tuned)했습니다.

K2.5의 비용: 말 그대로 DeepSeek V4 Pro보다 두 배 비싸고, GLM-5보다 네 배 비쌉니다. 만약 모든 요청에 이 모델을 사용한다면, 월간 청구액이 네 배로 뜁니다. 그래서 저는 신중하게 라우팅합니다. 제 분류기(classifier)가 진정으로 어려운 추론 작업이라고 감지할 때만 K2.5를 가동합니다.

라이선스 측면: Moonshot는 DeepSeek나 Qwen에 비해 오픈 웨이트 (open weights)에 대해 더 신중한 태도를 보여왔습니다. 더 작은 Kimi 변체(variants)들이 Hugging Face에 등장하긴 했지만, 플래그십 추론 모델들은 API 전용입니다. 저는 어차피 API를 통해 실행하고 있으므로 제 사용 사례에는 문제가 없지만, 모든 것을 셀프 호스팅(self-hosting)해야 한다고 주장하는 오픈 소스 순수주의자라면, Kimi는 이번 정리 목록에서 가장 친숙하지 않은 옵션입니다.

GLM: 과소평가된 일꾼

Zhipu AI의 GLM 제품군은 서구권 매체에서 충분한 주목을 받지 못하고 있는데, 이는 아쉬운 일입니다. 왜냐하면 이들은 중국 AI 생태계 전체에서 가장 가치 있는 모델 중 일부를 조용히 구축해 왔기 때문입니다.

라인업:

GLM-4-9B: 100만 토큰당 $0.01 — 가장 저렴한 프로덕션급 모델로서 Qwen3-8B와 공동 1위.
GLM-5: 100만 토큰당 $1.92 — 서구권 경쟁사들에 맞서 공격적인 가격을 책정한 플래그십 모델.

GLM-5가 저를 놀라게 한 이유: 100만 토큰당 $1.92라는 가격은 Kimi K2.5보다 무려 $1.08나 저렴하면서도, 대등하거나(경우에 따라서는 더 나은) 중국어 성능을 제공합니다. 만약 귀하의 제품이 중국어 사용자층을 대상으로 한다면, GLM은 반드시 고려 대상(shortlist)에 포함되어야 합니다. 이 모델은 중국 NLP 커뮤니티에 깊은 뿌리를 둔 智谱의 역량을 바탕으로 분명히 학습되었으며, 그 결과가 드러납니다. 관용적 표현, 문화적 맥락, 고전적 참조 등이 다른 모델들이 때때로 놓치는 유창함으로 처리됩니다.

GLM-4.6V는 이들의 시각-언어 모델 (vision-language model)이며 진정으로 탄탄합니다. Qwen3-VL만큼 화려하지는 않지만 경쟁력이 있으며, 이미지 중심의 워크플로우를 구축하고 있다면 테스트해 볼 가치가 있습니다.

오픈 소스 측면: Zhipu는 Kimi보다는 웨이트 (weights)를 공개하는 데 더 적극적이었지만, DeepSeek나 Qwen만큼 공격적이지는 않았습니다. 더 작은 GLM 변체들은 Hugging Face에서 Apache 2.0 라이선스로 제공되며, 이는 제가 찾는 조건입니다.

GLM의 한계: 속도는 괜찮지만 매우 빠르지는 않습니다. 딱 중간 정도의 수준입니다. 그리고 영어 품질은 준수하지만, 기술적이거나 대화적인 작업에서의 유창함은 DeepSeek V4 Flash에 미치지 못합니다. 저는 GLM을 범용적인 작업용 엔진(workhorse)이라기보다 중국어 콘텐츠를 위한 전문가로 취급합니다.

실제로 이 네 가지 모델을 사용하는 방법

저는 애플리케이션 앞에 라우터(router)를 실행하여 들어오는 요청을 분류하고 적절한 모델로 전달합니다. 대략 다음과 같은 방식입니다:

저렴한 분류, 추출, 간단한 Q&A → Qwen3-8B ($0.01/M)
일상적인 코딩 및 콘텐츠 작업 → DeepSeek V4 Flash ($0.25/M)
비전(Vision) 및 멀티모달 (multimodal) → Qwen3-VL-32B ($0.52/M)
중국어 기반 프로덕션 트래픽 → GLM-5 ($1.92/M)
고난도 추론, 수학, 복잡한 논리 → Kimi K2.5 ($3.00/M)

이 모든 모델은 https://global-apis.com/v1을 가리키는 동일한 OpenAI 호환 클라이언트(OpenAI-compatible client) 뒤에 있습니다. 독점적인 SDK는 없습니다. 벤더 종속(vendor lock-in)도 없습니다. "죄송합니다, 경쟁사와의 계약 때문에 이 기능을 사용할 수 없습니다"와 같은 상황도 없습니다. 그저 실행되는 코드만 있을 뿐입니다.

월간 청구 금액은 기존의 모든 것을 OpenAI로 구성했던 설정에 비해 약 80% 감소했으며, 사용자 대상 작업의 품질은 솔직히 구분이 불가능할 정도입니다. Kimi로 라우팅한 고난도 추론 작업의 경우, 오히려 품질이 향상되었습니다.