DeepSeek vs Qwen vs Kimi vs GLM: 클라우드 아키텍트의 심층 분석

솔직히 말해서, DeepSeek vs Qwen vs Kimi vs GLM: 클라우드 아키텍트의 심층 분석에 대해 이야기해 보겠습니다.

지난 분기에 저는 세 개의 리전(Region)에서 하루 약 200만 건의 요청을 처리하는 고객용 앱을 위한 주요 LLM(Large Language Model) 제공업체를 선정해야 했습니다. 제품 팀은 "그냥 가장 좋은 것을 골라라"라고 했고, CFO는 "저렴하게"라고 했으며, CTO는 "다운타임(Downtime) 없이"라고 말했습니다. 그때 저는 DeepSeek, Qwen, Kimi, 그리고 GLM을 비교하는 토끼굴에 빠지게 되었습니다. 단순히 마케팅 페이지를 읽는 것이 아니라, Global API의 통합 엔드포인트(Unified Endpoint)를 대상으로 실제 부하 테스트(Load Test)를 수행하고 p99 지연 시간(p99 Latency) 그래프를 관찰하면서 말이죠.

다음은 몇 주간의 벤치마킹(Benchmarking)을 거친 저의 솔직한 견해입니다. 만약 여러분이 어떤 중국 모델 제품군이 프로덕션 스택(Production Stack)에 들어갈 자격이 있는지 파악하려는 엔지니어라면, 이 글이 여러분의 주말을 아껴줄 것입니다.

여기서 SLA, p99 지연 시간(Latency), 그리고 멀티 리전(Multi-Region)이 중요한 이유

모델별 비교로 들어가기 전에, 저의 프레임워크(Framing)를 설명하겠습니다. 제가 LLM 제공업체를 평가할 때, 저는 단순히 "답변을 잘 하는가?"만을 묻지 않습니다. 저는 다음과 같은 질문을 던집니다:

지속적인 부하(Sustained Load) 상황에서 p99 지연 시간(p99 Latency)은 어느 정도인가?
문서화된 SLA(Service Level Agreement)가 있는가? 그리고 그것이 99.9%인가, 아니면 그저 희망 사항을 담은 마케팅인가?
자동 장애 조치(Automatic Failover)와 함께 여러 리전(Multi-Region)에 걸쳐 배포할 수 있는가?
트래픽 급증(Traffic Spikes) 시 모델이 어떻게 동작하는가 — 처리량(Throughput)이 선형적으로 확장되는가, 아니면 큐(Queue) 정체를 목격하게 되는가?
업스트림(Upstream) 제공업체에 문제가 생겼을 때의 영향 범위(Blast Radius)는 어느 정도인가?

대부분의 비교 기사들은 이 모든 것을 건너뛰고 그저 MMLU 점수에 대해서만 이야기합니다. 논문을 작성 중이라면 괜찮습니다. 하지만 프로덕션 시스템(Production System)을 운영 중이라면, 그 이상의 것이 필요합니다.

저는 네 가지 제품군 모두를 Global API를 통해 테스트했습니다. 왜냐하면 Global API는 제가 호출할 수 있는 하나의 OpenAI 호환 엔드포인트(OpenAI-compatible Endpoint)를 제공하기 때문이며, 이는 통합 레이어(Integration Layer)를 다시 작성하지 않고도 모델을 교체할 수 있음을 의미합니다. 그 사실 하나만으로도 평가 일정에서 몇 주를 단축할 수 있었습니다.

빠른 아키텍처 스냅샷(Architectural Snapshot)

인프라 관점에서 본 현재의 지형은 다음과 같습니다:

제공자 (Provider)	기원 (Origin)	출력 $ / M 토큰 (Output $ / M tokens)	최적의 용도 (Sweet spot)	컨텍스트 (Context)
DeepSeek	Hangzhou (幻方)	$0.25 – $2.50	고처리량, 저비용 서빙 (High-throughput, low-cost serving)	128K
...

몇 가지 사항이 즉각적으로 눈에 띕니다. Kimi는 독자적인 가격대를 형성하고 있습니다. 모든 모델이 $3.00 이상입니다. GLM과 Qwen은 모두 $0.01/M의 진입점을 제공하며, 이는 사실상 무료나 다름없습니다. DeepSeek는 가격 범위가 가장 좁지만, 중간 가격대에서 최고의 가성비 (price-to-performance)를 보여줍니다.

아키텍트에게 이것이 중요한 이유는 비용 예측 가능성 (cost predictability)이 용량 계획 (capacity planning)과 직접적으로 연결되기 때문입니다. Kimi와 같은 단일 요금제 제공자는 예산 책정이 더 쉽습니다. Qwen과 같이 범위가 넓은 제공자는 워크로드 (workloads)를 계층화할 수 있게 해줍니다. 즉, 저렴한 트래픽은 8B 모델로 보내고, 필요할 때만 상위 모델로 격상시키는 방식입니다.

DeepSeek V4 Flash: 기본 워크호스 (Default Workhorse)

제가 결국 트래픽의 대부분을 라우팅하게 된 모델부터 시작하겠습니다.

출력 토큰당 $0.25/M인 DeepSeek V4 Flash는 더 많은 서구권 제공자들이 복제했으면 하는 모델입니다. 저의 부하 테스트 (load tests)에서, 이 모델은 지속적인 트래픽 하의 짧은 완성형 (short completions) 작업에 대해 약 480ms의 p99 지연 시간 (latency)을 유지했습니다. 여기서 제가 말하는 것은 완만한 5 RPS 벤치마크가 아니라, 리전당 200 RPS 수준입니다.

아키텍처 측면에서 좋았던 점:

속도. V4 Flash는 제 테스트에서 지속적으로 초당 약 60개 토큰 (~60 tokens/sec)을 밀어냈으며, 이는 스트리밍이 최종 사용자에게 즉각적으로 느껴질 만큼 충분히 빠른 속도입니다.
안정적인 처리량 (throughput). 동시 연결 (concurrent connections)을 3배로 늘렸을 때, 지연 시간 곡선이 휘어지기는 했지만 무너지지는 않았습니다. 이는 드문 일입니다.
우수한 코드 생성 (code generation). 스캐폴딩 (scaffolding) 및 리팩토링 (refactoring)에 이를 사용하는 백엔드 팀의 경우, 내부적인 HumanEval 스타일 테스트에서 최상위권 점수를 기록했습니다.
영어 성능의 동등성 (English parity). GPT-4o를 벤치마킹할 때 사용하는 것과 동일한 영어 프롬프트를 실행해 보았는데, 품질이 실제 프로덕션 사용에 있어 진정으로 경쟁력이 있었습니다.

부족한 점:

시각 (Vision) 기능이 제한적입니다. 동일한 요청 내에서 이미지 이해 (image understanding)가 필요하다면 다른 모델을 찾아보세요. V4 Flash는 멀티모달 (multimodal) 모델이 아닙니다.
중국어 뉘앙스는 훌륭하지만 절대적인 최고 수준은 아닙니다. 워크로드 (workload)가 중국어 중심이라면 GLM이 근소하게 앞섭니다.
모델 다양성이 더 좁습니다. 엣지 (edge) 스타일의 배포를 위해 초소형 모델이 필요한 경우, Qwen이 훨씬 더 많은 크기 옵션을 제공합니다.

DeepSeek의 가격 계층 (pricing ladder):

모델	출력 $/M	용도
V4 Flash	$0.25	기본 라우팅 (default routing), 콘텐츠 생성, 개발 도구
...

자동 확장 (auto-scaling)을 포함한 99.9% 가동 시간 (uptime) 목표를 위해서는, V4 Flash가 제가 테스트한 모델 중 가장 관대한 모델이었습니다. 끊임없이 작동합니다.

코드 예시 — 프로덕션 환경에서 V4 Flash로 전환하기:

from openai import OpenAI

client = OpenAI(
...

이는 OpenAI를 대상으로 사용할 때와 동일한 클라이언트 객체입니다. 이것이 제가 Global API를 통해 라우팅을 시작한 유일한 이유입니다. 리팩토링 (refactoring) 없이 워크로드를 마이그레이션 (migrate)할 수 있었기 때문입니다.

Qwen: 라우팅의 챔피언

DeepSeek가 일꾼이라면, Qwen은 거대한 마구간 전체와 같습니다. Alibaba의 Qwen 팀은 제가 다 파악할 수 없을 정도로 더 많은 모델 변형 (model variants)을 출시하고 있으며, 이는 강점이자 동시에 저주이기도 합니다.

아키텍처 관점에서의 핵심 기능은 범위 (range)입니다. 가장 저렴한 분류 (classification) 또는 추출 (extraction) 작업을 위해 Qwen3-8B를 사용하여 0.01/M 토큰 엔드포인트 (endpoint)를 이용할 수 있습니다. 강력한 추론 (reasoning)이 필요한 경우에는 Qwen3.5-397B를 $2.34/M에 이용할 수 있습니다. 그 사이에는 기본적으로 모든 예산 계층에 맞는 모델이 존재합니다.

제 스택에서 Qwen이 빛을 발하는 부분:

계층형 라우팅 (Tiered routing). 저는 LLM 게이트웨이 앞에 라우터를 실행하여 요청을 분류하고, 저렴한 프롬프트는 Qwen3-8B로, 중간 범위의 프롬프트는 Qwen3-32B로 전달하며, 어려운 작업만 더 큰 모델로 전달합니다. 비용 절감 효과가 극적입니다.
비전 및 옴니모달 (Vision and omni-modal). $0.52/M의 Qwen3-VL-32B와 $0.52/M의 Qwen3-Omni-30B는 이미지와 오디오 입력을 네이티브로 처리합니다. 이는 사용자가 업로드한 미디어를 수용하는 모든 앱에 중요합니다.
엔터프라이즈급 인프라 (Enterprise-grade infrastructure). Alibaba가 지원하므로, 기반이 되는 SLA(서비스 수준 협약) 측면이 일부 소규모 업체들보다 더 잘 발달되어 있습니다.
활발한 개발 (Active development). 대략 몇 주마다 새로운 Qwen 릴리스가 나옵니다. 당신이 무엇을 하고 있든, 아마 다음 달에는 더 나은 모델이 있을 것입니다.

불만 사항:

명명 규칙이 혼란스럽습니다. Qwen3, Qwen3.5, Qwen3.6에 크기 접미사까지 더해져서, 이를 제대로 구분하기 위해 별도의 조회 테이블 (lookup table)을 만들어야 했습니다.
중간 범위의 영어 성능은 좋지만, 동일한 프롬프트에 대해 DeepSeek V4 Pro에서 약간 더 나은 원시 품질 (raw quality)을 얻었습니다.
일부 모델은 가격이 과하게 책정된 느낌입니다. 특히 $1/M 계층은 GLM이 최상위 모델에 대해 $1.92/M를 제시하는 것과 비교하면 무겁게 느껴집니다.

제 설정(config)에 유지하고 있는 전체 Qwen 모델 목록:

모델	출력 $/M	제 아키텍처에서의 역할
Qwen3-8B	$0.01	분류, 추출, 저가 계층
...

특히 멀티 리전 배포 (multi-region deployments)의 경우, Qwen의 폭넓은 라인업 덕분에 트래픽이 높은 리전에서는 더 작은 모델을 실행하고, 기본 클러스터에서만 강력한 모델로 에스컬레이션할 수 있어 선호합니다. 이것이 비용이 천문학적으로 치솟지 않으면서 99.9% SLA를 달성하는 방법입니다.

Kimi: 추론 전문가 (비용은 별도)

Kimi는 비용보다 정확도가 더 중요할 때 제가 찾는 모델입니다.

Moonshot AI는 장기 추론 (long-horizon reasoning)에 명확하게 초점을 맞춘 K2.5를 구축했습니다. 다단계 수학 및 논리적 추론 (logical inference) 작업에 대한 저의 벤치마크 결과, Kimi는 다른 세 모델군을 지속적으로 능가했습니다. 만약 5단계 앞을 계획해야 하는 에이전트 (agent)를 실행하거나, 도구들을 올바르게 체이닝 (chaining)해야 하는 연구 보조원을 운영한다면, 제가 신뢰할 모델은 Kimi입니다.

하지만 여기에는 트레이드오프 (tradeoff)가 있습니다: 모든 Kimi 모델은 출력 토큰 100만 개당 3.00달러 이상입니다. K2.5는 100만 개당 3.00달러이며, 최상위 모델은 100만 개당 3.50달러까지 올라갑니다. 이는 DeepSeek V4 Flash보다 대략 12배 더 비쌉니다.

Kimi가 가격만큼의 가치를 하는 부분:

최상위권 추론 벤치마크. 저의 평가 스위트 (evaluation suite)에서, 중간 단계를 환각 (hallucination) 없이 지속적으로 해결한 유일한 모델이었습니다.
긴 컨텍스트 일관성 (Long-context coherence). 최대 128K 토큰까지 지원하며, 실제로 컨텍스트를 잘 활용합니다. 일부 모델처럼 80K 지점에서 무너지지 않습니다.
부하 상황에서의 안정적인 동작. 놀랍게도, 저의 테스트에서 Kimi는 안정적인 지연 시간 (latency)을 유지했습니다. 추론 모델들은 느릴 것이라고 예상했지만, p99 수치는 V4 Flash의 범위 내에 있었습니다.

제가 반대하는 부분 (단점):

프리미엄 전용 가격 정책. 여기에는 저가형 티어 (budget tier)가 없습니다. Kimi의 품질을 원한다면, Kimi의 가격을 지불해야 합니다.
비전 (vision) 또는 멀티모달 (multimodal) 지원 없음. 순수 텍스트 전용입니다.
단순한 프롬프트에서는 DeepSeek보다 느림. "이 기사를 요약해줘"와 같은 유형의 요청에서는 V4 Flash가 지연 시간과 비용 모두에서 앞섭니다.

저의 라우팅 아키텍처 (routing architecture)에서,