6개월 전, 저는 단일 서구권 제공업체를 통해 매달 4,200달러의 비용이 발생하는 챗봇을 출시했습니다. 저는 탈출구가 필요했습니다. 참고로, 그렇게 해서 저는 2주 연속으로 중국 모델들의 시험대(gauntlet)를 운영하게 되었습니다. DeepSeek, Qwen, Kimi, 그리고 GLM을 통합 엔드포인트(unified endpoint)로 연결하고, 실제 운영 트래픽(production traffic)을 투입하며, 청구서(및 지연 시간(latencies))를 매의 눈으로 지켜보았습니다.

이것은 마케팅 비교가 아닙니다. 개발자의 현장 보고서입니다. 만약 당신이 2026년에 비서구권 LLM(Large Language Models)을 평가하는 백엔드 엔지니어라면, 제가 저를 짜증 나게 했던 부분들을 포함하여 실제로 발견한 것들은 다음과 같습니다.

후보군 요약

네 개의 제품군, 네 개의 철학:

DeepSeek — 가성비의 파괴자. GPU를 거래 재고처럼 취급하는 퀀트 펀드인 幻方 (High-Flyer)의 지원을 받습니다.
Qwen — Alibaba (阿里)의 맥가이버 칼(Swiss Army knife). 셀 수 없을 정도로 많은 모델 SKU를 보유하고 있습니다.
Kimi — Moonshot AI (月之暗面)의 추론 우선(reasoning-first) 베팅. 프리미엄 가격, 프리미엄 출력.
GLM — Zhipu AI (智谱)의 제품으로, 중국어에 깊게 최적화되어 있으며 놀라울 정도로 다재다능합니다.

네 모델 모두 OpenAI 호환 API를 제공합니다. 이것이 핵심입니다. 즉, base_url 교체만으로 OpenAI Python SDK를 그대로 사용할 수 있다는 의미입니다. 특정 벤더에 종속되는(vendor lock-in) 속임수는 없습니다. 보여드리겠습니다.

from openai import OpenAI

client = OpenAI(
...

이것이 채팅 완성(chat completions) 경로를 위한 마이그레이션(migration)의 전부입니다. 스트리밍(Streaming), 함수 호출(function calling), JSON 모드 — 모두 표준입니다. 제 생각에 이것은 현재 중국 LLM 지형에서 가장 과소평가된 단 한 가지 요소입니다. 오후 한나절 만에 네 개의 벤더를 A/B 테스트할 수 있다는 점 말이죠.

한 줄 요약 결과

1,500단어 더 떠들기 전에, 제가 얻은 결론은 다음과 같습니다:

차원 (Dimension)	DeepSeek	Qwen	Kimi	GLM
출력 가격 범위 (Output price range)	$0.25–$2.50/M	$0.01–$3.20/M	$3.00–$3.50/M	$0.01–$1.92/M
...
컨텍스트 윈도우 (Context windows)는 모두 128K라는 점에 주목하세요. 내부적으로 이는 이 제공업체들의 사실상 표준 상한선 (de facto ceiling)이 되었습니다. 유료 추론 (paid inference) 경로에서 1M을 넘어서는 곳은 아직 없으며, 솔직히 말해 이는 95%의 프로덕션 워크로드 (production workloads)에 충분합니다. 더 많은 용량이 필요하다면 기다리세요.

DeepSeek: 내가 실제로 비용을 지불할 모델

솔직히 말씀드리면, $0.25/M의 출력 가격을 가진 DeepSeek V4 Flash는 거의 말도 안 되는 수준입니다. 저는 눈 하나 깜짝하지 않고 바로 배포할 수 있을 정도의 프로덕션급 (production-grade) Python 코드를 작성하게 시켰습니다. 여기서 별 다섯 개짜리 코드 생성 (code generation)은 마케팅용 미사여구가 아닙니다. 이 모델은 HumanEval 및 MBPP 리더보드에서 일관되게 상위권을 차지하며, 제가 직접 수행한 임시 벤치마크 (ad-hoc benchmarks)에서는 몇몇 미묘한 Rust 수명 (lifetime) 퍼즐에서 GPT-4o를 이기기도 했습니다.

장점:

V4 Flash는 제 환경에서 약 60 tok/s를 기록했습니다. 긴 생성 (long generations) 작업 시 네 모델 중 가장 빠릅니다.
영어 출력은 캘리포니아에서 나오는 어떤 모델과도 대등한 수준이며, 이는 제가 예상치 못한 부분이었습니다.
$2.50/M의 R1 추론 모델 (reasoner)은 수학 및 논리 체인 (logic chains) 측면에서 o1-mini와 진정으로 경쟁할 만합니다.
Flash 변형을 원하지 않는다면 V3.2 ($0.38)가 최신 아키텍처 (architecture)를 제공합니다.
V4 Pro ($0.78)는 "실험은 끝났으니, 프로덕션 기본값(production defaults)을 달라"고 할 때 선택하는 티어입니다.
Coder ($0.25)는 전용 코드 모델입니다. 코드와 산문이 섞인 작업에서는 V4 Flash보다 약간 뒤처진다고 느꼈지만, 순수 알고리즘 작업에는 더 뛰어납니다.

단점:

추론 경로에서 비전 (Vision) 기능이 사실상 부재합니다. 이미지 이해 (image understanding)가 필요하다면 다른 곳을 찾아보세요.
중국어는 훌륭하지만, 고전 시, 격식 있는 글쓰기, 문화 특화적 추론 (culture-specific reasoning) 측면에서는 GLM과 Kimi가 근소하게 앞섭니다.
SKU 메뉴가 적습니다. 아마 5개 정도의 모델 중에서 선택해야 할 것입니다. 이는 저에게는 장점이지만, 어떤 팀들에게는 단점일 수 있습니다.

만약 제가 스타트업을 위해 모든 것을 통제할 단 하나의 모델을 골라야 한다면, 바로 이 모델일 것입니다. 교체(swap)는 다음과 같습니다:

모든 OpenAI SDK 호출에 대한 즉시 교체 가능한(Drop-in replacement) 대안

response = client.chat.completions.create(
model="deepseek-v4-flash",
...


그게 전부입니다. OpenAI를 대상으로 실행하던 것과 동일한 코드에, 제공자(provider)만 바꾸고, 동일한 SDK를 사용했습니다. 저의 월간 청구 금액은 4,200달러에서 약 340달러로 줄었습니다.

## Qwen: 너무 많은 SKU를 가진 모델 제품군

Alibaba는 정반대의 방향으로 갔습니다. Qwen은 어디에나 모델이 있습니다. 1M(백만) 토큰당 0.01달러(네, 1센트)인 Qwen3-8B부터, 2.34달러인 Qwen3.5-397B, 그리고 보고에 따르면 3.20달러에 달하는 일부 엔터프라이즈급 모델까지 다양합니다. 선택지가 많이 필요하다면, 바로 이 제품군입니다.

**장점:**

-   범위가 정말 넓습니다. 비전 모델(vision model)이 필요한가요? 0.52달러인 Qwen3-VL-32B가 있습니다. 오디오/비디오/이미지를 하나로 처리해야 하나요? 0.52달러인 Qwen3-Omni-30B가 있습니다. 아주 작은 분류기(classifier)가 필요한가요? 0.01달러인 Qwen3-8B가 있습니다.
-   Alibaba의 인프라 덕분에 지연 시간(latency)이 일정합니다. P99 수치가 한 번도 튀지 않았습니다.
-   0.28달러인 Qwen3-32B가 가장 적절한 지점(sweet spot)입니다. 범용적이고, 영어와 중국어 모두 탄탄하며, 마치 "저가형" 모델을 사용하는 것 같은 느낌을 주지 않습니다.
-   0.35달러인 Qwen3-Coder-30B는 코드 작업에서 DeepSeek과 경쟁할 만합니다. 제 개인적인 의견으로는 약간 뒤처지지만, 멀티모달(multimodal) 폴백(fallback) 기능이 훌륭합니다.

**단점:**

-   명명 규칙(naming)이 엉망진창입니다. Qwen3, Qwen3.5, Qwen3.6에 더해 VL, Omni, Coder 변형 모델까지 — 어떤 모델을 배포해야 할지 파악하기 위해 변경 로그(changelog)를 읽는 데만 반나절을 썼습니다. Qwen 팀의 누군가는 RFC 1178(호스트 이름 명명에 관한 것이지만, 그 정신은 적용됩니다)을 읽어봐야 합니다.
-   중급 수준의 영어는 괜찮지만, DeepSeek 수준만큼 정교하지는 않습니다. 미묘한 차이가 있는 기술 영어(technical English)에서는 V4 Flash보다 더 말을 아끼는(hedging) 경향이 있음을 확인했습니다.
-   일부 모델은 가격이 높습니다. 특정 35B 변형 모델은 출력 1M 토큰당 약 1달러 정도인데, 0.78달러인 DeepSeek V4 Pro가 바로 옆에 있는 상황에서는 이를 정당화하기 어렵습니다.

솔직한 제 의견은 이렇습니다. 만약 여러분이 멀티 모델 파이프라인(multi-model pipeline) — 예를 들어 라우팅을 위한 소형 모델, 추론을 위한 대형 모델, 스크린샷을 위한 비전 모델 등 — 을 구축하고 있다면, Qwen을 통해 하나의 제공자(provider)를 유지할 수 있습니다. 플랫폼 팀의 규모가 작을 때, 이러한 운영상의 단순함은 실제 비용 절감 가치를 제공합니다.

## Kimi: 비용만큼의 가치를 하는 추론 전문가 (The Reasoning Specialist That Costs What It Costs)

Kimi는 네 가지 모델 중 가장 주관이 뚜렷합니다. Moonshot AI는 기본적으로 "우리는 가격 할인 경쟁을 하지 않겠다"라고 선언한 것과 다름없으며, 모든 출력 가격을 1M(백만) 토큰당 $3.00에서 $3.50 사이로 책정했습니다. $3.00인 K2.5가 그들의 플래그십 모델입니다.

**장점:**

- 추론 (Reasoning) 능력이 진정으로 엘리트 수준입니다. 별 다섯 개를 주겠습니다. 제가 테스트한 내부 논리 퍼즐(GPT-4o조차 환각 (Hallucination)을 일으키는 종류)에서 K2.5가 가장 일관된 모습을 보였습니다.
- 중국어 출력 품질이 최상위권입니다. 자연스럽고, 관용적이며, 문화적 맥락을 잘 이해합니다.
- 오답을 허용할 수 없는 순수 추론 워크로드 (Workload)의 경우, 프리미엄 가격을 지불할 가치가 있습니다.

**단점:**

- 시각 (Vision) 기능이 없습니다. 끝입니다. 만약 로드맵에 멀티모달 (Multimodal) 기능이 필요하다면, Kimi는 제외 대상입니다.
- 속도가 네 모델 중 가장 느립니다. 별 세 개 수준이며, 긴 생성 작업 시 눈에 띄는 지연 시간 (Latency)이 발생합니다.
- 가격이 높은 수준에서 균일하게 책정되어 있어, 대안으로 선택할 수 있는 "Kimi Lite" 같은 모델이 없습니다.

정답이 반드시 맞아야 하고, 토큰당 비용 (Cost-per-token)보다 정답당 비용 (Cost-per-correct-answer)을 더 중요하게 생각한다면 Kimi를 사용하세요. 법률 문서 분석, 수학 튜터링, 혹은 오답의 대가가 큰 모든 분야가 이에 해당합니다.

## GLM: 과소평가된 중국어의 챔피언

Zhipu AI의 GLM 라인업은 DeepSeek나 Qwen에 비해 언급이 적은 편인데, 제 생각에 이는 실수입니다. 1M 토큰당 $1.92인 GLM-5는 매우 강력한 모델이며, 1M 토큰당 $0.01인 GLM-4-9B는 세계에서 가장 저렴하면서도 성능을 갖춘 LLM (대규모 언어 모델) 중 하나입니다.

**장점:**

- 중국어 능력은 별 다섯 개입니다. 정말로요. 중국어 사용자 기반을 대상으로 서비스를 제공한다면, GLM-5가 최선의 선택입니다.
- GLM 측면에서 시각 (Vision) 기능을 제공하는 GLM-4.6V가 있습니다. 이는 DeepSeek가 채울 수 없고 Kimi가 채우기를 거부하는 격차를 메워줍니다.
- 가격대($0.01에서 $1.92)가 Qwen과 동일한 운영 범위를 커버하지만, 상한선이 조금 더 타이트합니다.
- 일반적인 영어 품질도 탄탄합니다. DeepSeek 수준은 아니지만, 중국어 우선 연구소(Chinese-first lab)에서 기대했던 것보다 더 낫습니다.

**단점:**

- 코드 생성 (Code generation)은 별 3개로 네 모델 중 가장 약합니다. 상용구 (Boilerplate) 작성은 80% 정도 해결해주지만, 까다로운 부분에서는 실수를 합니다.
- GLM-5는 공격적인 가격 책정을 하고 있지만 파괴적인 수준은 아닙니다. 100만 토큰당 $1.92로, DeepSeek V4 Pro ($0.78)보다는 비싸고 Kimi K2.5 ($3.00)보다는 저렴하여 중간 지점의 선택지가 됩니다.

고객 지원, 콘텐츠 모더레이션 (Content moderation), 문서 처리와 같이 중국어 사용자 경험 (UX)이 주요 요구 사항인 앱이라면 GLM을 진지하게 고려해 볼 가치가 있습니다.

## 실제로 내가 배포할 것들

다음은 제가 팀원들에게 준 치트 시트 (Cheat sheet)입니다:

- **예산이 중요한 신규 스타트업 (Greenfield startup):** DeepSeek V4 Flash. 너무 깊게 고민하지 마세요.
- **멀티 모델 파이프라인 (Multi-model pipeline), 시각 기능 (Vision) 필요:** Qwen3-32B + Qwen3-VL-32B. 하나의 제공업체(Provider)를 유지하세요.
- **추론 중심 (Reasoning-heavy), 비용보다 정확도 중요:** Kimi K2.5.
- **중국어 우선 제품:** 운영 환경에는 GLM-5, 저렴한 분류 (Classification) 작업에는 GLM-4-9B.
- **영어 우선, 코드 중심, 저렴한 비용:** 다시 DeepSeek V4 Flash입니다. 네, 반복하고 있네요.

제가 출시한 챗봇의 경우, 결국 두 단계(Two-tier) 설정을 채택했습니다. 기본 90% 경로로는 DeepSeek V4 Flash를 사용하고, 심도 있는 추론이 필요한 질의에 대해서는 에스컬레이션 (Escalation) 단계로 Kimi K2.5를 사용했습니다. 총 비용은 월 $4,200 대신 $340였습니다. 지연 시간 (Latency)은 동일하고, SDK도 동일하며, 때로는 더 나은 답변을 얻었습니다.

## 인프라(Plumbing)에 관한 참고 사항

저는 모든 것을 Global API의 통합 엔드포인트(Unified endpoint)인 `https://global-apis.com/v1`을 통해 라우팅했습니다. 위의 코드 샘플은 모두 이를 기본 URL로 사용합니다. 제가 이를 특별히 언급하는 이유는 다음과 같습니다. 네 개의 제공업체를 동시에 다룰 때, 네 개의 SDK 설정, 네 개의 인증 (Auth) 흐름, 그리고 네 세트의 재시도 정책 (Retry policies)을 유지 관리하고 싶지는 않을 것이기 때문입니다. 여러 제공업체에 걸쳐 OpenAI의 와이어 프로토콜 (Wire protocol)을 사용하는 통합 엔드포인트는 이 모든 실험을 가능하게 만드는 지루하지만 필수적인 인프라입니다. 이 모델들 중 하나를 평가하고 있다면 확인해 보세요. 저는 급여를 받는 관계는 아니지만, 단지 자정까지 인증 코드를 다시 작성하는 것을 즐기지 않을 뿐입니다.

DeepSeek vs Qwen vs Kimi vs GLM: 백엔드 엔지니어의 관점

요약

핵심 포인트

후보군 요약

한 줄 요약 결과

DeepSeek: 내가 실제로 비용을 지불할 모델

모든 OpenAI SDK 호출에 대한 즉시 교체 가능한(Drop-in replacement) 대안

댓글