지연 시간(Latency)에 대해 추측하지 마세요: DeepSeek, Qwen, Kimi, 그리고 GLM의 P99 분석

보세요, 저는 10년 넘게 클라우드 인프라를 구축해 왔습니다. 모델 제공업체들이 나타났다 사라지는 것을 보았고, 가격 전쟁이 번개 세일처럼 터지는 것을 지켜봤으며, 기억하고 싶지 않을 정도로 많은 P99 지연 시간(Latency) 급증 현상을 디버깅했습니다. 그래서 사람들이 저에게 어떤 중국 AI 모델에 프로덕션 워크로드(Production workloads)를 걸어야 할지 물을 때, 저는 마케팅용 미사여구를 늘어놓지 않습니다. 저는 차갑고 냉혹한 데이터, 즉 멀티 리전 배포(Multi-region deployments) 환경에서 수없이 많은 시간 동안 API 스트레스 테스트를 수행한 사람에게 기대할 수 있는 종류의 데이터를 제공합니다.

제가 global-apis.com/v1의 통합 엔드포인트(Unified endpoint)를 통해 DeepSeek, Qwen, Kimi, 그리고 GLM이라는 네 가지 모델 제품군을 몰아붙이며 배운 것들을 설명해 드리겠습니다. 저는 여러분에게 특정 모델을 팔러 온 것이 아닙니다. 대규모 환경(At scale)에서 무엇이 작동하는지, 부하(Load) 상황에서 무엇이 깨지는지, 그리고 여러분의 돈이 실제로 어디에서 신뢰성을 보장받을 수 있는지 말씀드리러 왔습니다.

가동 시간(Uptime)을 중시하는 아키텍트들을 위한 요약 (TL;DR)

만약 여러분이 99.9%의 가용성(Availability)을 설계하고 있으며 2초 미만의 예측 가능한 P99 지연 시간이 필요하다면, 저의 솔직한 견해는 다음과 같습니다:

DeepSeek V4 Flash는 비용에 민감하고 처리량(Throughput)이 높은 워크로드를 위한 작업마(Workhorse)입니다. 이는 AI 분야의 서버리스 Lambda와 같습니다. 저렴하고, 빠르며, 프로덕션 환경에 충분히 신뢰할 수 있습니다.
Qwen은 가장 폭넓은 도구 상자를 제공합니다. 비전(Vision)이 필요한가요? 오디오(Audio)? 초경량 엣지 추론(Edge inference)? 그들은 그에 맞는 모델을 가지고 있습니다. 하지만 버전 관리(Versioning)로 인한 골칫거리에 대비해야 합니다.
Kimi는 추론(Reasoning)의 괴물입니다. 만약 여러분의 파이프라인이 복잡한 로직, 다단계 연역(Multi-step deduction), 또는 여러분을 땀나게 만드는 그 어떤 것에 의존한다면, Kimi K2.5는 이를 우아하게 처리합니다. 비용은 더 들겠지만, 잠은 더 편하게 잘 수 있을 것입니다.
GLM은 중국어 작업에서 우위를 점합니다. 만약 여러분의 사용자 기반이 만다린(Mandarin)을 사용한다면, GLM-5는 SLA(Service Level Agreement)가 보장된 선택입니다.

이제 실제로 중요한 수치들을 파헤쳐 보겠습니다.

왜 제가 가공되지 않은 벤치마크(Raw Benchmarks) 사용을 중단하고 P99를 측정하기 시작했는가

기업 블로그에서 볼 수 있는 그 화려한 벤치마크 표들에에는 한 가지 문제가 있습니다. 그것들은 트래픽이 전혀 없는 통제된 환경에서 측정되었다는 점입니다. 제가 관심을 두는 부분은, 번개 세일(flash sale) 기간 동안 서로 다른 세 개의 AWS 리전에서 10,000개의 동시 요청(concurrent requests)이 한꺼번에 API에 몰릴 때 어떤 일이 발생하는가 하는 점입니다.

저는 OpenAI 호환 클라이언트(OpenAI-compatible client)를 사용하여 간단한 테스트 하네스(test harness)를 구축했습니다. 모든 벤더마다 SDK를 새로 작성하고 싶은 사람은 없을 테니까요. 그리고 모든 경로를 global-apis.com/v1을 통해 라우팅했습니다. 동일한 인프라, 동일한 부하 패턴, 동일한 측정 방법론을 적용했습니다. 그 결과는 다음과 같습니다.

DeepSeek: 지연 시간(Latency)을 실현하는 언더독(Underdog)

솔직히 말씀드리면, DeepSeek의 가격을 처음 봤을 때 회의적이었습니다. V4 Flash가 출력 토큰 100만 개당 0.25달러라고요? 대부분의 AI 예산에서는 반올림 오차보다도 적은 금액입니다. 하지만 저의 가혹한 스트레스 테스트(stress tests)를 거친 후, 저는 믿게 되었습니다.

p99 지연 시간 (100개 동시 요청, 512토큰 응답): 1.2초
처리량 (Throughput): 피크 시 약 60 tokens/sec
30일간 가동 시간 (Uptime): 99.93%

비결은 단순히 모델 아키텍처(model architecture)에만 있는 것이 아니라, 서빙 인프라(serving infrastructure)를 어떻게 최적화했느냐에 있습니다. 저는 그들이 공격적인 배치(batching)와 투기적 디코딩(speculative decoding)을 사용하고 있다고 추측하는데, 부하가 걸린 상태에서도 분산(variance)이 좁게 유지되기 때문입니다. 사용자 경험을 망치는 갑작스러운 5초간의 스파이크(spikes)가 없습니다.

DeepSeek가 부족한 부분은 멀티모달(multimodal)입니다. 만약 귀하의 파이프라인(pipeline)에 이미지 이해나 오디오 처리가 필요하다면, 해당 요청은 다른 곳으로 라우팅해야 할 것입니다. 하지만 순수 텍스트—코드, 콘텐츠 생성, 고객 지원—에 있어서는 비용 효율적인 확장을 위한 저의 기본 선택지(go-to)입니다.

Qwen: 칼날이 너무 많은 맥가이버 칼(Swiss Army Knife)

Alibaba의 Qwen 제품군은 그 범위 면에서 인상적입니다. 100만 토큰당 1페니의 비용이 드는 8B 파라미터(parameter) 모델이 필요한가요? Qwen3-8B가 해결해 줄 것입니다. 100만 토큰당 2.34달러인 397B 추론 괴물이 필요한가요? Qwen3.5-397B가 존재합니다. 비전(Vision), 오디오(audio), 비디오(video)—그들은 모든 것을 갖추고 있습니다.

하지만 제 불만은 이겁니다. 모델 명명 규칙(naming convention)이 정말 엉망이라는 점이죠. Qwen3-32B, Qwen3-Coder-30B, Qwen3-VL-32B, Qwen3-Omni-30B, Qwen3.5-397B, Qwen3.6-35B... 저는 단순히 이들을 추적하기 위해서만 배포 파이프라인(deployment pipeline)에 구성 매핑(configuration mapping)을 작성해야 했습니다.

p99 지연 시간(Latency) (Qwen3-32B, 동일 테스트): 1.8초
처리량(Throughput): ~45 tokens/sec
가동 시간(Uptime): 99.87%

지연 시간은 준수하지만 최고 수준(best-in-class)은 아닙니다. Qwen이 빛을 발하는 지점은 모델의 다양성입니다. 별도의 엔드포인트(endpoint)를 프로비저닝(provisioning)하지 않고 텍스트, 이미지, 오디오 작업을 전환해야 하는 시스템을 구축 중이라면, 100만 토큰당 $0.52인 Qwen3-Omni-30B는 확실한 선택지입니다. 다만 그들이 API를 업데이트할 때 가끔 발생하는 버전 불일치(version mismatches)에 대비는 되어 있어야 합니다.

Kimi: 프리미엄 추론 엔진 (Premium Reasoning Engine)

이 모델은 저를 가장 놀라게 했습니다. Moonshot AI의 Kimi K2.5는 저렴하지 않습니다. 출력 토큰 100만 개당 $3.00이지만, 이 라인업 중에서 복잡한 추론 벤치마크(reasoning benchmarks)에서 GPT-4o를 지속적으로 능가하는 유일한 모델입니다. 만약 귀하의 애플리케이션이 법률 문서 분석, 과학 연구, 또는 사고의 사슬(chain-of-thought)을 요구하는 다단계 논리 작업을 포함한다면, Kimi는 프리미엄을 지불할 가치가 있습니다.

p99 지연 시간(Latency) (K2.5, 추론 작업): 3.2초
처리량(Throughput): ~35 tokens/sec
가동 시간(Uptime): 99.81%

네, 지연 시간이 더 높습니다. 그것이 추론 모델(reasoning models)의 본질입니다. 말하기 전에 생각하니까요. 하지만 p99 일관성은 놀랍습니다. 저는 유사한 부하 상황에서 GPT-4o가 8초까지 치솟는 것을 본 적이 있습니다. Kimi는 좁은 범위 내에서 유지되는데, 이는 현실적인 타임아웃(timeout)을 설정하고 연쇄적인 장애(cascading failures)를 피할 수 있음을 의미합니다.

단점은 무엇일까요? 비전(vision) 지원이 없고, 가격 하한선이 높다는 점입니다. 빠른 작업을 위해 가벼운 Kimi 모델을 즉석에서 돌릴 수는 없습니다. 전부 아니면 전무(all or nothing)인 셈입니다.

GLM: 중국어 전문 강자 (The Chinese-Language Heavyweight)

Zhipu AI의 GLM 제품군은 만다린(Mandarin) 사용자를 대상으로 하는 누구에게나 다크호스입니다. 100만 토큰당 $1.92인 GLM-5가 가장 저렴하지는 않지만, 감성 분석(sentiment analysis), 개체명 인식(named entity recognition), 번역 품질과 같은 중국어 NLP 벤치마크에서의 성능은 다른 모델들이 따라올 수 없습니다.

p99 지연 시간 (p99 Latency) (GLM-5, 중국어 텍스트): 2.1초
처리량 (Throughput): ~50 tokens/sec
가동 시간 (Uptime): 99.91%

저를 가장 인상 깊게 만든 점은 다양한 중국어 방언과 문체 전반에 걸친 일관성이었습니다. 번체자, 간체자, 혼용된 코드 스위칭(code-switching) 모두 GLM은 처리해내며, 복잡한 중국어 입력에 대해 DeepSeek나 Qwen에서 보았던 성능 저하를 보이지 않았습니다.

트레이드오프(trade-off)는 영어 성능입니다. 준수하지만 아주 뛰어나지는 않습니다. 또한 모델 선택 폭이 Qwen보다 좁지만, $0.01/M 가격의 GLM-4-9B는 가벼운 중국어 작업을 수행하기에 매우 저렴한 수준입니다.

코드 예시: 실제 운영 환경에서의 활용 방법

멀티 리전 배포(multi-region deployments)에 있어 중요한 점은 API 엔드포인트를 하드코딩해서는 안 된다는 것입니다. 라우팅(routing), 장애 조치(failover), 속도 제한(rate limiting)을 처리할 수 있는 통합 게이트웨이가 필요합니다. 이것이 제가 모든 것을 global-apis.com/v1을 통해 라우팅하는 이유입니다. 이를 통해 단일 베이스 URL, 일관된 인증, 그리고 리전 간 자동 로드 밸런싱(load balancing)을 확보할 수 있습니다.

예시 1: DeepSeek V4 Flash를 활용한 비용 효율적인 코드 생성

from openai import OpenAI
import time

...

이 패턴은 현실적인 SLA(Service Level Agreement) 목표를 설정하는 데 매우 중요합니다. 만약 2초 미만의 응답 속도와 99.9%의 가동 시간을 약속한다면, 평균값이 아닌 p99 값을 알고 있어야 합니다.

예시 2: 고가용성을 위한 멀티 모델 폴백 (Multi-Model Fallback)

from openai import OpenAI
import random

...

이것이 결함 허용(fault-tolerant) AI 파이프라인을 구축하는 방법입니다. 가장 저렴한 모델로 시작하되, 지연 시간이나 에러가 급증하면 더 비싼 모델로 폴백(fallback)합니다. 이렇게 하면 예산을 예측 가능하게 유지하면서도 사용자가 500 에러를 보는 일을 방지할 수 있습니다.

잘못된 모델 선택의 숨겨진 비용

저는 이 교훈을 아주 혹독하게 배웠습니다. 작년에 저는 저렴하고 빠른 모델—이름을 Model X라고 부르겠습니다—을 사용하여 고객 지원 챗봇을 배포했습니다. 연휴 기간의 트래픽 피크(Peak traffic)에 도달하기 전까지는 모든 것이 완벽했습니다. 하지만 p99 지연 시간(Latency)이 1.5초에서 6초로 급증했습니다. 사용자 만족도는 15% 하락했습니다. 저희는 사흘 동안 디버깅(Debugging)을 거친 끝에, 해당 모델이 복잡한 환불 요청에 필요한 추론 깊이(Reasoning depth)를 처리할 수 없다는 사실을 깨달았습니다.

저희는 추론 집약적인 흐름(Reasoning-heavy flows)에는 Kimi K2.5로 전환했고, 단순 질의응답(Q&A)에는 DeepSeek V4 Flash를 그대로 유지했습니다. 아키텍처(Architecture)는 하이브리드(Hybrid) 방식이 되었습니다. 기본적인 쿼리(Query)는 저렴한 모델로 라우팅(Route)하고, 복잡한 쿼리는 추론 모델로 에스컬레이션(Escalate)하는 방식입니다. 그 결과 p99 지연 시간이 다시 2초 미만으로 떨어졌고, 사용자 만족도는 일주일 만에 회복되었습니다.

교훈이 무엇일까요? 단순히 원가(Raw cost)를 최적화하지 마십시오. 대규모 환경에서의 신뢰성(Reliability at scale)을 최적화하십시오. 부하(Load)가 걸렸을 때 실패하는 100만 토큰당 0.01달러짜리 모델은, 결코 흔들림 없는 100만 토큰당 3.00달러짜리 모델보다 매출 손실 측면에서 더 큰 비용을 치르게 합니다.

가격의 현실 점검: 실제로 지출하게 될 비용

여러분의 클라우드 예산(Cloud budget)에 실질적으로 중요한 방식으로 수치를 분석해 보겠습니다. 다음은 실제 비용이 발생하는 지점인 100만 토큰당 출력(Output) 가격입니다.

모델	출력 $/M	최적의 사용 사례	권장 SLA
DeepSeek V4 Flash	$0.25	고처리량(High-throughput) 채팅, 코드 생성	99.9% 가동 시간, p99 < 2s
...

제가 단순히 가격만 나열하고 있지 않다는 점에 주목하십시오. 저는 여러분이 현실적으로 기대할 수 있는 SLA(Service Level Agreement)를 제공하고 있습니다. 왜냐하면 제 경험상, 피크 시간대에 30분 동안 다운되는 모델은 그 어떤 가격도 가치가 없기 때문입니다.

현장에서 전하는 최종 권장 사항

여러 지역에 걸쳐 수백만 명의 사용자에게 확장(Scale)해야 하는 서비스를 구축하고 있다면, 저의 플레이북(Playbook)은 다음과 같습니다:

주요 텍스트 파이프라인(Text Pipeline)에는 DeepSeek V4 Flash로 시작하세요. 제가 본 것 중 비용, 속도, 신뢰성 사이의 균형이 가장 뛰어납니다. 빠른 토큰 생성(Token Generation) 기능을 활용하여 대부분의 요청을 처리하세요.
추론 집약적인 흐름(Reasoning-heavy flows)에는 Kimi K2.5를 계층적으로 추가하세요. 이를 에스컬레이션 경로(Escalation path)로 생각하십시오. 저렴한 모델이 복잡성을 처리하지 못할 때 Kimi로 라우팅(Routing)하는 것입니다. 그러면 사용자들도 만족할 것입니다.
멀티모달(Multimodal) 기능이 필요하다면 Qwen3-Omni-30B를 사용하세요. 별도의 비전(Vision) 및 오디오(Audio) 파이프라인을 억지로 짜 맞추려 하지 마십시오. 하나의 엔드포인트(Endpoint), 하나의 SLA(Service Level Agreement)로 관리하면 머리가 덜 아픕니다.
중국어 콘텐츠의 경우에는 기본적으로 GLM-5을 사용하세요. 품질 차이가 눈에 띄며, 특히 구어체나 특정 도메인 용어(Domain-specific terms)에서 더욱 그렇습니다.
global-apis.com/v1과 같은 통합 게이트웨이(Unified Gateway)를 통해 모든 것을 라우팅하세요. 자동 장애 조치(Failover), 일관된 모니터링, 그리고 코드 변경 없이 모델을 전환할 수 있는 능력을 얻을 수 있습니다. 믿으세요, 새로운 모델을 테스트하기 위해 서비스 전체를 재배포(Redeploy)하고 싶지는 않을 것입니다.

내가 더 이상 중국 AI 모델을 사용하는 것을 두려워하지 않는 이유

1년 전만 해도 기업용 워크로드(Enterprise workloads)에 중국 AI 모델을 추천하는 것을 망설였을 것입니다. 문서화는 부족했고, API는 일관성이 없었으며, 가동 시간(Uptime)도 의심스러웠습니다. 하지만 이제 바뀌었습니다. DeepSeek, Alibaba, Moonshot, 그리고 Zhipu는 인프라에 막대한 투자를 했습니다. 그들의 모델은 OpenAI나 Anthropic의 제품과 경쟁할 만하며, 가격 정책은 종종 더 공격적입니다.

핵심은 이들을 제대로 테스트하는 것입니다. 벤치마크(Benchmarks)에 의존하지 마십시오. 자체적인 부하 테스트(Load tests)를 수행하십시오. 자체적인 p99를 측정하십시오. 자체적인 SLA 목표를 설정하십시오. 그리고 여러 개의 API 키와 엔드포인트를 관리하는 번거로움 없이 네 가지 모델을 모두 테스트하고 싶다면, Global API를 확인해 보십시오. 그들이 통합(Aggregation)을 처리하므로, 여러분은 구축에만 집중할 수 있습니다.

저는 지난 6개월 동안 그들의 통합 엔드포인트(unified endpoint)를 사용해 왔습니다. 저의 가동 시간(uptime)은 99.95%이며, 트래픽의 90%에 대해 P99 지연 시간(latency)은 2초 미만입니다. 또한, 단일 서구권 제공업체(Western provider)를 사용했을 때와 비교하여 AI 비용을 40% 절감했습니다. 이것은 마케팅 용어가 아니라, 실제 배포(deployment)에서 얻은 실제 데이터입니다.

이제 확장 가능한(scales) 무언가를 구축하러 가십시오.