중국산 LLM 대규모 배포: DeepSeek, Qwen, Kimi, GLM 테스트 결과

지난 분기 우리 팀이 추론 비용 (inference bill)을 절감하라는 압박을 받기 시작했을 때, 저는 모든 클라우드 아키텍트가 그렇듯 대안 모델들에 대한 스트레스 테스트 (stress-testing)를 시작했습니다. 우리는 최첨단 지능 (frontier intelligence)이 굳이 필요하지 않은 문서 처리 파이프라인 (document-processing pipeline)에 OpenAI 예산을 쏟아붓고 있었고, CFO는 마진 (margin)에 대해 불편한 질문을 던지기 시작했습니다.

그렇게 해서 저는 6주 동안 DeepSeek, Qwen, Kimi, GLM이라는 네 가지 중국 모델 제품군을 서로 비교 벤치마킹 (benchmarking)하는 데 시간을 보냈습니다. 모든 모델은 Global API의 통합 엔드포인트 (unified endpoint)를 통해 라우팅되었기에, 통합 과정을 깔끔하게 유지하면서 실제 운영 (production)에서 중요한 요소들, 즉 p99 지연 시간 (p99 latency), 부하 상황에서의 처리량 (throughput), 그리고 오토스케일링 (auto-scaling) 이벤트 중에 발생하는 콜드 스타트 (cold-start) 동작에 집중할 수 있었습니다.

제가 배운 내용은 다음과 같습니다.

엔터프라이즈 스택에서 이 네 가지가 중요한 이유

솔직히 말씀드리면, 저는 올해 초까지만 해도 중국 LLM 분야에 큰 관심을 두지 않았습니다. 우리 엔지니어링 채널의 담론은 항상 "서구권의 최첨단 모델 (frontier models)을 기다리자"였습니다. 하지만 계산 결과가 달라지기 시작했습니다. 이 제공업체 중 몇몇은 12개월 전이라면 SOTA (State-of-the-Art)로 간주되었을 출력 품질을 우리가 GPT-4o에 지불하는 비용의 아주 일부분만으로 제공하고 있습니다. 그리고 한 달에 수백만 건의 요청을 처리할 때, 그 "일부분"은 더 이상 반올림 오차 수준이 아닙니다.

저는 운영 환경을 위한 모델을 선택할 때 세 가지를 고려합니다:

내 유스케이스 (use case)에 필요한 품질 기준을 충족하는가
급증하는 트래픽 (bursty traffic) 상황에서 p99 지연 시간 (p99 latency)은 어떠한가
내 호출기 (pager)가 울리는 새벽 2시에도 실제로 사용 가능한가

Global API는 제가 이 네 가지를 모두 테스트할 수 있는 단일 통합 지점을 제공해 주었는데, 솔직히 이것이 제가 이 비교를 수행할 수 있었던 유일한 이유입니다. 그렇지 않았다면 저는 여전히 네 개의 서로 다른 SDK를 위한 OpenAI 호환 래퍼 (wrappers)를 작성하고 있었을 것입니다.

요약 (아키텍트의 관점)

심층 분석에 들어가기에 앞서, 제가 모니터에 고정해 둔 치트 시트 (cheat sheet)를 공개합니다:

	DeepSeek	Qwen	Kimi	GLM
Vendor (공급업체)	DeepSeek (幻方)	Alibaba (阿里)	Moonshot AI (月之暗面)	Zhipu AI (智谱)
...

신뢰성 (Reliability): 실제로 중요한 지루한 요소들

잠시 벤치마크 쇼(benchmark theater)는 건너뛰고, 저를 밤잠 설치게 했던 문제에 대해 이야기해 보겠습니다. 저희는 액티브-액티브 페일오버 (active-active failover)를 포함한 멀티 리전 배포 (multi-region deployment)를 운영하고 있으므로, 트래픽을 두 번째 리전으로 전환하는 순간 가동 시간 (uptime) 이야기가 무너지지 않는 공급업체가 필요합니다.

6주간의 테스트 기간 동안, 통합 엔드포인트 (unified endpoint)에 대한 글로벌 API 게이트웨이 (Global API gateway) 자체는 99.9%의 SLA를 유지했습니다. 그 아래 단계인 기반 모델 공급업체들은 가변적인 동작을 보였습니다. DeepSeek의 엔드포인트가 가장 일관적이었는데, 전체 테스트 기간 동안 아마 두 번 정도의 일시적인 503 오류를 목격했을 뿐이며, 두 번 모두 30초 이내에 해결되었습니다. Alibaba의 지원을 받는 Qwen은 하이퍼스케일러 (hyperscaler)에게 기대할 수 있는 종류의 인프라를 갖추고 있었습니다. 서비스 중단에 대해서는 전혀 걱정할 필요가 없었으며, 오직 어떤 모델 변체 (model variant)를 호출할지만 고민하면 되었습니다. Kimi는 테스트 중간에 다소 힘든 한 주를 보냈는데, 약 48시간 동안 p99 지연 시간이 약 1.2초에서 4초로 급증했으나 이후 회복되었습니다. GLM은 중간 정도의 성능을 보였습니다.

저의 페일오버 (failover) 설계를 위해, 저는 다음과 같이 라우팅을 구성했습니다:

기본 트래픽 (Primary traffic): DeepSeek V4 Flash로 라우팅
폴백 (Fallback): DeepSeek의 상태 확인 (health check) 실패 시 Qwen3-32B로 전환
콜드 스탠바이 (Cold standby): 더 강력한 추론 (reasoning)이 필요한 롱테일 (long-tail) 케이스를 위해 GLM-5로 전환

Kimi는 핫 패스 (hot path)에서 제외되었습니다. 기본 모델로 사용하기에는 비용이 너무 많이 들며, 추론 품질이 정말 중요한 케이스를 위해 아껴두고 싶었기 때문입니다.

지연 시간 (Latency): p99 수치가 실제로 나타낸 모습

저는 세 가지 동시성 (concurrency) 수준 — 10, 100, 500개의 동시 요청 — 으로 합성 부하 (synthetic load)를 가했으며, 게이트웨이에서의 엔드 투 엔드 지연 시간 (end-to-end latency)을 측정했습니다. 혼합된 입력값 100만 토큰을 기준으로 평균을 낸 대략적인 결과는 다음과 같습니다:

모델 (Model)	p50	p95	p99
DeepSeek V4 Flash	280ms	540ms	1.1s
...

이 결과로부터 얻은 몇 가지 관찰 사항은 다음과 같습니다:

DeepSeek V4 Flash는 저의 예상치 못한 복병(sleeper hit)이었습니다. p99 기준 1.1초라는 속도는 사용자가 불만을 제기하지 않을 수준의 동기식 사용자 대면 API (synchronous user-facing API)로 운영하기에 충분히 빠릅니다. 피크 시 초당 60 토큰 (60 tokens/sec)을 출력한다는 것은, 최악의 지연 시간(tail) 상황에서도 500 토큰 응답이 10초 이내에 완료됨을 의미합니다.

Qwen3-8B는 수치상으로는 가장 빠르지만, 솔직히 말해 진지한 워크로드 (workloads)를 처리하기에 적합한 모델은 아닙니다. 분류 (classification), 추출 (extraction), 그리고 "일회성" 전처리 (pre-processing) 작업에는 훌륭합니다.

Qwen3.5-397B는 지연 시간 (latency) 측면에서 불편함이 느껴지는 지점입니다. p99 기준 3.2초인 이 모델은 사용자 대면용이 아닌 백그라운드 작업 (background-job) 모델입니다. 만약 이 모델을 호출해야 한다면, 넉넉한 타임아웃 (timeout)을 설정한 큐 (queue)를 통해 호출하십시오.

Kimi는 네 가지 모델 중 일관되게 가장 느립니다. 추론 (reasoning) 품질은 확실하지만, 그 대가로 실제 소요 시간 (wall-clock time)을 지불해야 합니다.

GLM-4-9B는 저를 놀라게 했습니다. 90억 개의 파라미터 (nine-billion-parameter) 모델임에도 불구하고 지연 시간 측면에서 제 역할을 다합니다. 저는 비용을 절감하기 위해 대량의 영어 작업 중 일부를 이 모델로 라우팅 (routing)하기 시작했습니다.

프로덕션 규모에서의 비용 모델링 (Cost Modeling at Production Volume)

백만 토큰당 가격은 실제 트래픽 (traffic)을 곱하기 전까지는 의미가 없습니다. 월간 출력 토큰이 약 8억 개 (800M output tokens)인 제 워크로드에 대한 모델링 방식은 다음과 같습니다:

만약 모든 작업을 DeepSeek V4 Flash ($0.25/M)로 실행한다면, 월 청구액은 약 $200가 됩니다. 동일한 워크로드를 Qwen3-32B ($0.28/M)로 실행하면 $224가 됩니다. Kimi K2.5 ($3.00/M)로 전환하면 갑자기 월 $2,400가 되어 12배나 급증합니다. GLM-5 ($1.92/M)는 $1,536가 됩니다.

저의 문서 파이프라인 (document pipeline)의 경우, 비용과 품질의 교차점 (crossover)은 거의 정확히 V4 Flash 지점에 위치합니다. 더 저렴한 모델 (Qwen3-8B)로 가면 미묘한 추출 (nuanced extraction) 작업에서 품질이 너무 많이 떨어집니다. 더 비싼 모델 (Qwen3-32B)로 가면 월 $24가 추가되지만 품질은 약 3% 정도 향상됩니다. 대량의 트래픽에는 그만한 가치가 없지만, 세심한 추론이 필요한 5%의 요청에는 가치가 있습니다. 그런 요청들은 선택적으로 Qwen3-32B로 라우팅합니다.

$0.01/M 가격의 Qwen3-8B는 진정으로 말도 안 되는 수준입니다. 저는 이를 "1차 통과 (first pass)" 모델로 사용합니다. 이를 통해 추출 (extraction)을 실행하고, 신뢰도 (confidence)가 낮으면 V4 Flash로 격상(escalate)시킵니다. 이러한 2단계 아키텍처 (two-stage architecture) 덕분에 품질 저하를 측정할 수 없는 수준에서 비용을 절반으로 줄였습니다.

$0.01/M 가격의 GLM-4-9B도 비슷한 위치에 있습니다. 90억 개의 파라미터 (nine-billion-parameter) 규모는 아주 적절한 지점입니다. 분류 (classification) 및 단문 작업 (short-form tasks)을 큰 어려움 없이 처리합니다.

모델별 심층 분석 (Per-Model Deep Dive)

DeepSeek: 처리량의 일꾼 (The Throughput Workhorse)

테스트한 모델 라인업:

V4 Flash — $0.25/M 출력 (output)
V3.2 — $0.38/M 출력 (output)
V4 Pro — $0.78/M 출력 (output)
R1 (Reasoner) — $2.50/M 출력 (output)
Coder — $0.25/M 출력 (output)

DeepSeek는 대량의 작업이 필요할 때 제가 찾는 모델입니다. V4 Flash는 일꾼 역할을 합니다. 빠르고 저렴하며, 해당 가격대에서 출력 품질이 놀라울 정도로 잘 유지됩니다. 코드 생성 (code generation)의 경우, 저의 일관된 선두 주자였습니다. 내부 평가 (internal eval)를 위해 사용하는 HumanEval 스타일의 프롬프트 (prompts)로 테스트했을 때, 4개 모델 비교에서 다른 모든 모델을 압도했습니다.

$0.78/M 가격의 V4 Pro는 "고민할 필요 없는" 선택지입니다. V4 Flash보다 품질이 약간 더 좋으면서도 여전히 저렴하고 빠릅니다. 저는 응답 품질이 비용보다 더 중요한 고객 대면 생성 (customer-facing generation) 작업에 이를 사용합니다.

R1은 $2.50/M 가격의 추론 (reasoning) 모델입니다. 성능은 좋지만, 솔직히 제가 던지는 수학 및 논리 문제들에 대해서는 Kimi가 더 낫습니다. 저는 Kimi를 쓰기에는 과한(overkill) 코드 관련 작업에서 추론 모델이 필요할 때만 R1을 호출합니다.

DeepSeek가 잘하지 못하는 한 가지는 비전 (vision)입니다. 이미지를 입력받아야 한다면, 별도의 비전 모델을 실행하거나 완전히 다른 제공업체 (provider)로 라우팅해야 합니다. 저는 결국 파이프라인 (pipeline) 내의 몇 안 되는 이미지 중심 작업들을 위해 Qwen3-VL-32B를 사용하게 되었습니다.

Global API를 통한 DeepSeek V4 Flash 샘플 호출:

from openai import OpenAI

client = OpenAI(
...

Qwen: 만능 해결사 (The Everything Bagel)

테스트한 모델들:

Qwen3-8B — $0.01/M output
Qwen3-32B — $0.28/M output
Qwen3-Coder-30B — $0.35/M output
Qwen3-VL-32B — $0.52/M output
Qwen3-Omni-30B — $0.52/M output
Qwen3.5-397B — $2.34/M output

DeepSeek가 메스(scalpel)라면, Qwen은 맥가이버 칼(Swiss Army knife)입니다. Alibaba는 말 그대로 모든 가격대와 모달리티 (modality)를 아우르는 모델들을 출시하며, 이는 강점이자 약점이기도 합니다. 강점은 명확합니다. 어떤 예산에서도 Qwen 모델을 찾을 수 있다는 점입니다. 약점은 버전 번호입니다. 특정 작업에 Qwen3-32B를 호출해야 할지, 아니면 Qwen3.5-397B를 호출해야 할지 파악하느라 반나절을 허비한 적도 있습니다. 스포일러를 하자면, 이는 속도를 원하는지 아니면 추론 깊이 (reasoning depth)를 원하는지에 따라 달라집니다.

VL 및 Omni 변체 (variants)는 진정으로 유용합니다. $0.52/M 가격의 Qwen3-VL-32B는 전용 비전 파이프라인 (vision pipeline)을 폐기할 정도로 이미지 이해 (image understanding)를 충분히 잘 수행합니다. Qwen3-Omni-30B는 오디오, 비디오