중국산 LLM 사이에서의 선택: 나의 실제 벤치마크 결과

솔직히 말해서, 중국산 LLM 사이에서의 선택: 나의 실제 벤치마크 결과

나는 지난 6주 동안 나의 스테이징 클러스터(staging cluster)에서 네 가지 중국산 모델 제품군을 테스트하며 성능을 검증하는 데 시간을 보냈으며, 그 결과는 내가 LLM 조달(procurement)에 대해 생각하는 방식을 바꾸어 놓았습니다. 만약 당신이 프로덕션 워크로드(production workload)를 위해 DeepSeek, Qwen, Kimi, 그리고 GLM 사이에서 고민 중인 아키텍트라면, 이 글은 내가 시작하기 전에 누군가 건네주었기를 바랐던 바로 그 글입니다.

나의 상황은 다음과 같습니다: 나는 북미, 프랑크푸르트, 싱가포르 전역에 걸쳐 하루에 약 1,200만 개의 요청을 처리하는 멀티 리전 추론 게이트웨이(multi-region inference gateway)를 운영하고 있습니다. SLA(Service Level Agreement) 약정은 99.9%이며, 고객이 기대하는 예산은 p99 지연 시간(latency) 800ms 미만입니다. 이는 단순히 리더보드에서 가장 높은 점수를 받은 모델을 선택할 수 없음을 의미합니다. 제품 출시 기간 동안 트래픽이 40배 급증할 때 견뎌내고, 특정 리전에 문제가 생겼을 때 깔끔하게 페일오버(failover)되며, 유닛 이코노믹스(unit economics)를 파산시키지 않는 모델이 필요합니다.

내가 테스트한 네 가지 제품군은 모두 내가 신뢰하는 단일 OpenAI 호환 엔드포인트(OpenAI-compatible endpoint)인 https://global-apis.com/v1의 Global API를 통해 라우팅되었으며, 이를 통해 벤치마크 방법론을 깔끔하게 유지할 수 있었습니다. 동일한 헤더(headers), 동일한 재시도 로직(retry logic), 동일한 계측(instrumentation)을 사용했습니다. 유일하게 바뀐 것은 model 필드뿐이었습니다.

제품군별로 내가 무엇을 배웠는지 설명해 드린 후, 수치들을 나란히 비교해 보여드리겠습니다.

실제로 어떻게 테스트했는가

본격적으로 시작하기 전에 방법론에 대해 짧게 언급하겠습니다. 아래의 수치들은 방법론 없이는 의미가 없기 때문입니다. 나는 모든 모델에 대해 세 가지 워크로드(workloads)를 실행했습니다:

200토큰(token) 영어 채팅 완성 (warm cache, 50개 동시 연결)
4,000토큰 중국어 문서 요약 (cold path, 10개 동시 연결)
실제 내부 저장소(repo)에서 가져온 코드 생성 작업 (혼합된 길이, 단일 연결)

나는 평균(mean), p50, p95, p99 지연 시간(latency)을 캡처했습니다. 약 1:3의 평균 입출력 비율에서 1,000개 요청당 비용을 추적했습니다. 또한 피할 수 없었던 화요일 오전의 리전 장애를 포함하여 72시간 동안의 에러율(error rate)을 측정했습니다.

저는 이 제공업체들의 마케팅 페이지를 신뢰하지 않았습니다. 직접 테스트했습니다.

DeepSeek: 이들 중 지연 시간(Latency)의 챔피언

DeepSeek 실행 결과가 대시보드에 처음 나타났을 때, 저는 제 눈을 의심했습니다. V4 Flash 모델은 제가 사용하는 가장 빠른 서구권 제공업체들과 정면으로 경쟁할 수 있는 속도로 결과물(completions)을 반환했으며, 출력 토큰 100만 개당 0.25달러라는 비용은 청구서의 비용 항목이 민망할 정도였습니다.

V4 Flash는 지연 시간에 민감한 모든 작업에 있어 저의 데일리 드라이버(daily driver)가 되었습니다. 제 테스트 하네스(test harness)에서 이 모델은 안정적인 부하 상태에서 초당 약 60개의 토큰을 생성했으며, 이는 짧은 결과물의 경우 p99가 약 420ms임을 의미했습니다. 이는 추가 회의 없이 제품 팀에 바로 제시할 수 있는 수준의 수치입니다.

제가 평가한 DeepSeek의 전체 라인업은 다음과 같습니다:

모델	출력 $/M	나의 의견
V4 Flash	$0.25	데일리 드라이버, 코딩, 콘텐츠
...

DeepSeek에서 진심으로 마음에 드는 점:

가격 대비 성능(price-to-performance) 곡선이 거의 공격적입니다. 출력 100만 개당 0.25달러인 V4 Flash는 제가 중요하게 생각하는 워크로드에서 훨씬 더 비싼 프런티어 모델(frontier models)들과 진정으로 대등하다고 느껴집니다.
코드 생성(Code generation) 능력이 탁월합니다. 저의 내부 HumanEval 스타일 스위트(suite) 전반에 걸쳐, DeepSeek는 비용이 10배 더 비싼 모델들과 대등하게 맞섰습니다.
영어 성능이 강력합니다. 이를 통해 영어 우선(English-first) 고객층에게 서비스를 제공하는 데 아무런 문제가 없었습니다.
속도가 핵심 기능입니다. p99를 500ms 미만으로 유지해야 할 때, 제가 가장 먼저 찾는 모델은 바로 이것입니다.

부족한 점:

비전(Vision) 기능이 제한적입니다. 동일한 호출 내에서 네이티브하게 이미지 이해(image understanding)가 필요하다면, 멀티모달(multimodal) 제공업체로 체이닝(chaining)해야 합니다.
중국어 뉘앙스가 GLM이나 Kimi에 비해 약간 뒤처집니다. 나쁜 수준은 아니지만, 벤치마크 격차가 실재합니다.
모델 범위가 Qwen보다 좁습니다. 한 제공업체로부터 아주 작은 1B 모델이나 거대한 400B 모델이 모두 필요하다면, 이곳은 적절한 선택지가 아닙니다.

다중 지역 배포 (multi-region deployments)의 경우, Global API를 통한 글로벌 엔드포인트 (global endpoint) 방식은 깔끔한 추상화 (abstraction)를 제공했습니다. 하나의 베이스 URL (base URL)을 사용하고, 게이트웨이 계층 (gateway layer)에서 지역적 장애 조치 (regional failover)를 처리하며, 애플리케이션 코드를 수정하지 않고도 모델을 교체할 수 있었습니다.

from openai import OpenAI

client = OpenAI(
...

이 코드 스니펫 (snippet)은 본질적으로 제 에지 워커 (edge workers)에서 실행되는 내용입니다. 이를 그대로 넣고 Global API를 가리키기만 하면, 검증된 폴백 경로 (fallback path)를 확보하게 됩니다.

Qwen: 내가 끊을 수 없는 맥가이버 칼

Alibaba는 너무 많은 Qwen 변체 (variants)를 출시해서, 이를 구분하기 위해 스프레드시트를 만들어야 할 정도였습니다. 하지만 이러한 폭넓은 라인업은 새로운 내부 사용 사례 (internal use case)가 책상에 놓였을 때, 그것이 어떤 형태가 될지 아직 알 수 없는 상황에서 제가 계속해서 Qwen 제품군으로 돌아오게 만드는 이유이기도 합니다.

제가 벤치마크 (benchmark)한 Qwen 라인업:

모델 (Model)	출력 1M당 비용 ($/M)	나의 의견
Qwen3-8B	$0.01	초저가 분류 및 라우팅 (classification and routing)
...

Qwen3-8B의 1M당 $0.01라는 진입점은 진정으로 유용합니다. 저는 저렴한 분류 (classification) 및 의도 탐지 (intent-detection) 호출을 이 모델로 라우팅하는데, 규모가 커지더라도 비용이 무시할 수 있는 수준으로 유지되기 때문입니다. 더 무거운 작업 (heavier lifting)을 위해서는 1M당 $0.28인 Qwen3-32B를 범용 (general-purpose) 선택지로 사용합니다. 제 테스트 결과, 이 모델은 V4 Flash와 동일한 지연 시간 (latency) 범위 내에서 답변을 반환했으며, 구조화된 출력 (structured output) 측면에서 약간의 우위를 보였습니다.

제가 Qwen에서 진정으로 좋아하는 점:

모델 범위가 말 그대로 모든 가격대를 커버합니다. $0.01부터 $3.20까지, 단일 제공업체 제품군 내에서 완전히 계층화된 라우팅 전략 (tiered routing strategy)을 구축할 수 있습니다.
비전 (Vision) 및 옴니모달 (omni-modal) 옵션이 존재합니다. 별도의 서비스 없이 이미지 이해 (image understanding)가 필요할 때 Qwen3-VL-32B와 Qwen3-Omni-30B 모두 잘 작동했습니다.
Alibaba의 기업 DNA가 드러납니다. 이 모델들의 배후에 있는 인프라 (infrastructure)는 확장성 (scale)을 위해 설계되었으며, 제 부하 테스트 (load tests)에서도 전혀 무리가 없었습니다.
출시 주기 (release cadence)가 빠릅니다. 발표 후 며칠 만에 Qwen3.5-397B를 제 테스트 환경 (harness)에 적용할 수 있었습니다.

한계점 (Where it stumbles):

명명 규칙 (Naming)이 정말 혼란스럽습니다. 모델 ID를 실제 성능과 매칭하는 데만 반나절을 허비했습니다. 치트 시트 (Cheat sheet)를 만드세요.
중급 수준의 영어 실력은 준수하지만, 아주 뛰어나지는 않습니다. 만약 순수 영어 유창성 (English fluency)이 요구 사항이라면, 동일한 가격대에서 DeepSeek가 근소하게 앞섭니다.
일부 모델은 가격이 과하게 책정된 느낌입니다. $1/M인 Qwen3.6-35B는 Qwen3-32B 대비 프리미엄을 지불할 만큼 저에게 충분한 인상을 주지 못했습니다.

기업용 멀티 리전 (multi-region) 환경의 경우, Qwen은 통합 게이트웨이 (unified gateway)를 통해 라우팅된다는 점에서 엄청난 이점을 얻습니다. 동일한 OpenAI 호환 엔드포인트 (OpenAI-compatible endpoint)를 사용한다는 것은 저의 Python 클라이언트, Go 워커 (workers), 그리고 Node 프론트엔드 (frontends)가 모두 동일한 방식으로 통신할 수 있음을 의미합니다.

Kimi: 프리미엄의 가치를 증명한 추론 전문가 (Reasoning Specialist)

솔직히 말씀드리면, 첫 비용 명세서를 확인한 후 Kimi를 거의 제외할 뻔했습니다. 가장 저렴한 모델이 출력 $3.00/M이고 가장 비싼 모델이 $3.50/M이라면, 그 모델이 제공하는 기능이 정말로 필요해야만 하기 때문입니다.

그리고 Kimi가 제공하는 것은 바로 추론 (reasoning)입니다. 논리 집약적인 벤치마크 (benchmarks), 다단계 수학 문제, 그리고 다른 모델들을 헤매게 만드는 구조화된 사고 사슬 (chain-of-thought) 문제들에서 Kimi는 이 네 가지 모델 중 명확한 선두주자입니다. Moonshot AI는 해당 워크로드 (workload)를 위해 특별히 K2.5 제품군을 구축했으며, 그 결과가 드러납니다.

제가 테스트한 Kimi 라인업:

모델	출력 $/M	나의 의견
K2.5	$3.00	플래그십 추론 모델
(상위 티어)	$3.50	최상위 모델

Kimi가 저렴하다고 거짓말하지는 않겠습니다. 하지만 핵심은 이것입니다. Qwen이 세 번의 재시도와 온도 조절 (temperature dance)을 거쳐야 했던 계획 수립 문제를 해결해야 했을 때, Kimi는 단 한 번에 성공했습니다. 만약 오답의 비용을 수치화할 수 있다면 — 컴플라이언스 (compliance), 리걸 테크 (legal tech), 또는 금융 서비스 분야에서는 분명히 가능합니다 — 더 나은 추론 모델에 비용을 지불하는 것이 수학적으로 유리해지기 시작합니다.

제가 Kimi에 대해 진심으로 좋아하는 점:

최상위권 추론 벤치마크 (Reasoning benchmarks). 문제가 진정으로 어려울 때 찾아야 할 모델군입니다.
뛰어난 중국어 유창성 (Chinese-language fluency). 긴 형태의 중국어 생성 작업에서, 저의 주관적인 테스트 결과 GLM과 대등한 성능을 보였습니다.
지속적인 부하 상황에서의 안정성. 예열(Warmed)된 이후, K2.5는 8시간의 소크 테스트 (Soak test) 동안 일관된 p99 수치를 유지했습니다.

부족한 점:

가격 하한선이 높습니다.

중국 시장을 우선시하는 제품이라면, 저는 GLM을 기본값으로 배포할 것입니다. 영어를 우선시하면서 일부 중국어 트래픽이 발생하는 제품이라면, 언어 감지 라우터 (language-detection router) 뒤에 배치하겠습니다.

나란히 비교하기

여기에 제가 구축한 통합 비교표가 있습니다. 모든 가격, 모든 별점, 그리고 모든 기능 플래그 (capability flags)는 저의 자체 테스트 실행 결과에서 가져왔습니다.

차원 (Dimension)	DeepSeek	Qwen	Kimi	GLM
개발사 (Developer)	DeepSeek (幻方)	Alibaba (阿里)	Moonshot AI (月之暗面)	Zhipu AI (智谱)
...		시각/멀티모달 (Vision/Multimodal)	제한적 (Limited)	✅ (VL, Omni)

Insights

중국산 LLM 사이에서의 선택: 나의 실제 벤치마크 결과

요약

핵심 포인트

실제로 어떻게 테스트했는가

DeepSeek: 이들 중 지연 시간(Latency)의 챔피언

Qwen: 내가 끊을 수 없는 맥가이버 칼

Kimi: 프리미엄의 가치를 증명한 추론 전문가 (Reasoning Specialist)

나란히 비교하기

댓글

GOP, SCOTUS 판결을 통해 새로운 중간선거 지출 무기 확보

Llama.cpp는 MoE에 최적화되어 있지 않습니다

위험한 폭염과 나선구더기 사례로 인해 소 가격은 여전히 강세입니다. 돼지 가격은 추가 상승이 필요합니다.

Gerresheimer 4분기 실적 발표 주요 내용

Llama.cpp는 MoE에 최적화되어 있지 않습니다

위험한 폭염과 나선구더기 사례로 인해 소 가격은 여전히 강세입니다. 돼지 가격은 추가 상승이 필요합니다.

Gerresheimer 4분기 실적 발표 주요 내용