실제 클라이언트 업무를 통해 DeepSeek, Qwen, Kimi, GLM을 테스트해 보았습니다

지난 화요일, 저는 문제에 직면했습니다. 한 클라이언트가 하루에 약 200만 토큰을 처리하고, 중국어 고객 지원 이메일을 라우팅하며, 내부 개발 팀을 위한 코딩 어시스턴트를 실행할 수 있는 콘텐츠 모더레이션 (Content Moderation) 파이프라인 구축을 요청했습니다. 예산은요? 추론 (Inference) 비용으로 월 약 200달러였습니다.

그때 저는 중국 AI 모델이라는 토끼굴에 빠지게 되었습니다.

저는 6년 차 프리랜서 개발자입니다. 저는 시간당 비용을 청구하는데, 이는 프로토타이핑을 할 때 모든 API 호출이 제 주머니에서 나가는 돈임을 의미합니다. 저는 6자리 숫자의 LLM 예산을 승인해 주는 CTO가 없습니다. 대신 각 쿼리가 저에게 얼마의 비용을 발생시켰는지 적어두는 노트북이 있고, 이를 클라이언트에게 청구한 금액과 대조해 봅니다.

따라서 제가 DeepSeek, Qwen, Kimi, GLM을 실제 유료 업무에 투입하여 서로 경쟁시켰다고 말할 때, 이는 말 그대로 모델 간의 달러 차이를 추적했다는 뜻입니다. 제가 발견한 내용은 다음과 같습니다.

왜 중국 모델을 살펴봤는가

솔직히 말하면요? 한동안 저항했습니다. 저는 수년 동안 OpenAI와 Anthropic을 사용해 왔습니다. 대부분은 습관 때문이었죠. 하지만 저와 마찬가지로 프리랜서로 활동하는 친구가 중국 제공업체로부터 받은 3월 인보이스를 보여주었습니다. 그의 청구액은 47달러였습니다. 제 청구액은 412달러였죠. 작업 내용은 동일했습니다. 그 점이 제 관심을 끌었습니다.

저는 작게 시작했습니다. 모든 개발 스레드에서 저렴하다고 말했기에 처음에는 DeepSeek을 가져왔습니다. 그다음 범위를 넓혔습니다. Alibaba의 이름이 계속 등장했기에 Qwen을 선택했습니다. 실제 추론 (Reasoning) 능력이 뛰어난 것이 필요했기에 Kimi를 선택했습니다. 그리고 서구권 모델로는 필요한 중국어 품질을 얻을 수 없었던 이중 언어 프로젝트가 있었기에 GLM을 선택했습니다.

네 모델 모두 OpenAI 호환 API를 제공하므로, 기존 코드의 단 한 줄도 다시 작성할 필요가 없었습니다. 바로 그 점이 핵심이었습니다. 베이스 URL (Base URL)을 바꾸고, 모델 이름을 바꾸면 끝이었습니다.

제가 실제로 테스트한 방법은 다음과 같습니다.

테스트 설정 (느낌이 아닌 실제 수치)

저는 작은 벤치마크 (Benchmark) 제품군을 구축했습니다. 클라이언트가 실제로 저에게 비용을 지불하는 업무를 반영하는 네 가지 작업입니다:

대량 콘텐츠 요약 (Bulk content summarization) — 800개의 기사, 각 평균 2,000 토큰 (tokens)
영어 코딩 작업 (English coding tasks) — LeetCode 스타일의 문제 및 실제 코드베이스 리팩토링 (refactoring)
중국어 고객 이메일 분류 (Chinese customer email classification) — 상하이에 기반을 둔 이커머스 클라이언트를 위한 의도 라우팅 (routing)
다단계 추론 (Multi-step reasoning) — 수학 문장제 문제, 논리 퍼즐 등 컨설팅 클라이언트들이 저에게 던지는 과제들

저는 각 작업을 모든 모델에 실행했습니다. 토큰 (tokens) 사용량, 비용, 그리고 출력이 첫 시도에 바로 사용 가능한지 아니면 재생성 (re-roll)이 필요한지를 추적했습니다.

다음은 각 제공업체가 출력 토큰 100만 개당 부과하는 비용입니다 (입력 토큰은 더 저렴하지만, 비용이 폭발하는 지점은 출력 토큰입니다):

제공업체 (Provider)	가성비 선택지 (Budget Pick)	중간 단계의 실무형 (Mid-Tier Workhorse)	프리미엄 모델 (Premium Model)	범위 (Range)
DeepSeek	V4 Flash @ $0.25	V4 Pro @ $0.78	R1 @ $2.50	$0.25–$2.50
...

Kimi는 사실상 "가성비"를 추구하지 않습니다. 이것이 가장 먼저 알아야 할 사실입니다. 그들이 판매하는 모든 것은 프리미엄 위스키처럼 가격이 책정되어 있습니다.

DeepSeek: 대부분의 작업에 대한 나의 새로운 기본값

저는 DeepSeek가 그저 호기심 대상일 것이라고 생각하며 시작했습니다. 하지만 결과적으로는 저의 새로운 데일리 드라이버 (daily driver)가 될 것이라고 생각하며 마쳤습니다.

출력 100만 토큰당 $0.25인 V4 Flash가 핵심 수치입니다. 오타가 아닙니다. 100만 토큰당 25센트입니다. 프리랜서 관점에서 설명하자면, 한 달 동안 100만 개의 출력 토큰을 처리했을 때 비용이 25센트라는 뜻입니다. 예전에는 GPT-4를 이용한 단 한 번의 복잡한 호출에 이 정도 금액을 썼었습니다.

모델 자체는 어떠냐고요? 빠릅니다. V4 Flash의 속도를 측정해 보니 평균 초당 약 60 토큰 (tokens) 정도로, 제가 본 모델 중 가장 민첩한 축에 속했습니다. 영어 코딩 벤치마크 (benchmarks)를 GPT-4o만큼이나 잘 처리했으며, HumanEval 스타일의 문제에서는 체급 이상의 성능을 보여주었습니다. 콘텐츠 요약 작업의 경우, 두 번째로 저렴한 옵션이었으며 품질 또한 합격점(pass)이었습니다. 즉, 클라이언트가 재작업을 요청하지 않았다는 의미입니다.

한계점: 네이티브 비전 (Native vision) 기능이 없습니다. 만약 클라이언트가 이미지 이해 (Image understanding)를 필요로 한다면, DeepSeek은 이를 수행할 수 없습니다. 중국어 품질 또한 GLM이나 Kimi에 비해 약간 뒤처지는데, 나쁘지는 않지만 선두 주자는 아닙니다. 또한 모델 라인업이 Qwen만큼 다양하지 않아서, 매우 구체적인 크기나 동작이 필요한 경우 적합한 모델을 찾지 못할 수도 있습니다.

저에게 계산법은 간단합니다. 지난달에 40시간을 청구했고 그중 12시간이 GPT-4 호출이었다면, 추론 (Inference) 비용으로만 아마 80~150달러를 썼을 것입니다. V4 Flash를 사용하면 그 비용이 아마 15달러로 떨어집니다. 이는 동일한 결과물을 내면서 제 주머니에 100달러가 더 들어온다는 의미입니다.

실제 교체 작업은 다음과 같습니다:

from openai import OpenAI

client = OpenAI(
...

이것이 기존 OpenAI 코드에서 변경되는 유일한 부분입니다. 새로운 모델 이름, 새로운 URL. 그 외 모든 것은 동일합니다.

Qwen: 가장 많은 옵션을 가진 모델

DeepSeek이 메스(Scalpel)라면, Qwen은 맥가이버 칼(Swiss Army knife)입니다. Alibaba 팀은 제가 생각할 수 있는 거의 모든 니치 (Niche) 시장을 위한 모델을 구축했습니다.

라인업이 엄청납니다:

Qwen3-8B ($0.01/M) — 비용 효율이 맞지 않아 예전에 건너뛰었던 작업들을 위한 모델입니다. 태그 생성 (Tag generation), 간단한 분류 (Classification) 등 물량은 많고 복잡도는 낮은 모든 작업에 적합합니다.
Qwen3-32B ($0.28/M) — 저의 범용 (General-purpose) 선택지입니다. DeepSeek V4 Flash보다 약간 비싸지만, 제 경험상 모호함 (Ambiguity)을 더 잘 처리합니다.
Qwen3-Coder-30B ($0.35/M) — 코드를 위해 특별히 튜닝되었습니다. 아직 충분히 스트레스 테스트를 해보지는 못했지만, 초기 실행 결과는 견고했습니다.
Qwen3-VL-32B ($0.52/M) — 시각-언어 모델 (Vision-language model)입니다. 클라이언트가 스크린샷을 보내며 "이 에러가 무슨 뜻인가요?"라고 물을 때 제가 찾는 모델입니다.
Qwen3-Omni-30B ($0.52/M) — 오디오, 비디오, 이미지, 텍스트를 지원합니다. 아직 이것이 필요한 프로젝트를 맡지는 않았지만, 존재한다는 사실만으로도 든든합니다.
Qwen3.5-397B ($2.34/M) — 그들의 엔터프라이즈 추론 (Enterprise reasoning) 괴물입니다. 대부분의 프리랜서 작업에는 과하지만, 일 년에 한 번 정도 강력한 추론이 필요한 컨설팅 업무가 있다면 이를 사용할 수 있습니다.

가격 계층(Price ladder)이 핵심입니다. 동일한 파이프라인의 서로 다른 부분들을 여러 Qwen 모델로 라우팅하여, API를 벗어나지 않고도 비용을 최적화할 수 있습니다. 요약(Summarization) 작업은 $0.01의 Qwen3-8B를 거치고, 복잡한 추론(Complex reasoning) 레이어는 $0.28의 Qwen3-32B를 거칩니다. 시각(Vision) 작업에는 VL 변형 모델을 사용합니다. 하나의 제공업체, 하나의 청구서로 여섯 가지의 서로 다른 가격대를 활용할 수 있습니다.

한계점: 명명 규칙이 정말 혼란스럽습니다. Qwen3, Qwen3.5, Qwen3.6, Qwen3-Coder, Qwen3-VL, Qwen3-Omni — 저는 모니터에 요약표를 붙여두고 있습니다. 중간 범위의 일부 모델들은 성능 대비 가격이 비싸게 느껴집니다. Qwen3.6-35B가 100만 토큰당 $1인 것은, GLM-5가 더 나은 중국어 지원과 함께 유사한 품질을 $1.92에 제공하는 상황에서 설득력이 떨어집니다.

다양한 클라이언트를 둔 프리랜서 개발자에게 Qwen은 "이번 달에 정확히 무엇이 필요할지 모르겠다"라고 할 때 선택하기 좋은 옵션입니다. 그러한 유연성은 약간의 프리미엄을 지불할 가치가 있습니다.

다음은 일반적인 코딩 작업을 위한 저의 전형적인 Qwen 호출 방식입니다:

response = client.chat.completions.create(
    model="Qwen/Qwen3-32B",
    messages=[
...

Kimi: 프리미엄 추론 선택지

Moonshot AI는 다른 타겟층을 위해 Kimi를 만들었습니다. 가격이 모든 것을 말해줍니다. K2.5는 100만 토큰당 $3.00, K2.5 Pro는 $3.50입니다. 이는 저가형 영역이 아닙니다. "이 작업이 처음부터 완벽해야 한다"라고 요구되는 영역입니다.

솔직히 말해서, 제가 다단계 추론(Multi-step reasoning) 벤치마크를 실행했을 때 Kimi는 기대에 부응했습니다. 수학 문장제 문제, 논리 퍼즐, 다단계 질문(Multi-hop questions) 등에서 네 가지 모델 중 일관되게 가장 정확했습니다. 만약 클라이언트가 저에게 시간당 $200를 지불하고 있고, LLM 호출이 결과물의 핵심 경로(Critical path)에 있는 컨설팅 업무를 수행 중이라면, 저는 Kimi를 원할 것입니다.

한계점: 가격입니다. 저가형 옵션이 없습니다. 모든 Kimi 모델은 프리미엄 모델입니다. 대량 작업(High-volume work)의 경우 이는 고려 대상조차 되지 않습니다. 저는 테스트 작업량의 약 5% 정도에만 Kimi를 사용했는데, 그마저도 청구서를 보며 움찔했습니다.

또한, 시각/멀티모달(Vision/Multimodal) 지원이 없습니다. 작업에 이미지가 포함된다면 Kimi는 선택지에 들어올 수 없습니다.

하지만 추론 품질(reasoning quality)이 핵심인 특정 작업들 — 법률 문서 분석, 금융 모델링 지원, 복잡한 코드 아키텍처 리뷰 등 — 을 고려할 때, Kimi는 제 도구 상자에서 제 자리를 확보했습니다. 다만 제가 아주 자주 찾는 모델은 아닐 뿐입니다.

GLM: 이중 언어의 강력한 엔진 (The Bilingual Powerhouse)

Zhipu AI의 GLM 제품군은 프로젝트의 중국어 품질이 매우 중요해질 때 제가 꺼내 드는 도구입니다.

100만 토큰당 1.92달러인 GLM-5가 플래그십 모델이며, 중국어 벤치마크(benchmarks)에서는 Kimi와 대등하거나 오히려 앞섭니다. 영어에서의 추론 능력은 Kimi의 수준에 미치지 못하지만, 중국어 중심의 작업에서는 GLM이 가장 강력한 경쟁자입니다. 상하이에 있는 저의 이커머스(e-commerce) 클라이언트는 한 달에 약 50,000건의 중국어 고객 이메일을 GLM을 통해 분류하도록 요청했는데, 분류 정확도가 고가의 서구권 모델들을 포함한 다른 모델들보다 눈에 띄게 좋았습니다.

가성비 전략: 100만 토큰당 0.01달러인 GLM-4-9B입니다. 네, 100만 토큰당 1센트입니다. 오타가 아닙니다. 개체명 추출(entity extraction), 감성 태깅(sentiment tagging), 스팸 필터링(spam filtering)과 같이 볼륨이 크고 복잡도가 낮은 중국어 작업에는 이 모델을 이길 수 없습니다. 저는 이메일 분류 작업 중 쉬운 80%는 이 모델로 배치(batch) 처리하고, 정말 복잡한 나머지 20%를 위해 GLM-5를 남겨두었습니다.

한계점: 시각(Vision) 기능이 있긴 하지만 Qwen만큼 성숙하지는 않습니다. 모델 라인업이 필수적인 기능은 갖추고 있으나 Qwen만큼 다양하지는 않습니다. 속도는 준수하지만 DeepSeek만큼 빠르지는 않습니다. 그리고 순수 영어 작업의 경우, 탄탄하긴 하지만 아주 뛰어나지는 않습니다. 저는 보통 DeepSeek V4 Flash를 먼저 선택하곤 합니다.

저의 이중 언어 프리랜서 업무에서 GLM은 이제 필수적인 존재입니다. 대량 처리를 위한 GLM-4-9B와 품질을 위한 GLM-5의 조합은 저에게 저렴하면서도 정확한 중국어 언어 스택(stack)을 제공합니다.

수익 계산 (The Billable Hours Math - 제가 실제로 신경 쓰는 부분)

동료 프리랜서분들을 위해 이를 구체적인 수치로 설명해 보겠습니다.

다양한 작업에 걸쳐 한 달에 약 500만 개의 출력 토큰(output tokens)을 처리해야 하는 클라이언트 프로젝트가 있다고 가정해 봅시다. 제가 추천하는 모델들을 사용할 때 각 제공업체별 비용은 다음과 같습니다:

DeepSeek V4 Flash 전용: 5M × $0.25 = $1.25/month
Qwen 혼합 (Qwen3-32B 주력): 대략 5M × $0.28 = $1.40/month
GLM 혼합 (4-9B + 5): 혼합 단가 ~$0.50/M = $2.50/month
Kimi K2.5: 5M × $3.00 = $15.00/month

출력 1M당 $10인 GPT-4o와 비교해 보면, 동일한 작업량에 대해 $50/month가 소요됩니다.

만약 클라이언트에게 프로젝트 비용으로 $5,000를 청구하고 있는데, 추론 (Inference) 비용이 $50에서 $2로 떨어진다면, 여러분의 마진(Margin)은 $48만큼 늘어납니다. 한 달에 10명의 클라이언트를 상대한다면? $480입니다. 이는 제 월세의 상당 부분을 차지하는 금액입니다.

주의할 점: 더 저렴한 모델이 실제로 사용 가능한 결과물을 제공하는지 반드시 검증해야 합니다. 만약 V4 Flash가 환각 (Hallucination) 현상을 일으켜 작업을 세 번 다시 실행해야 한다면, 제 시간 비용이 API 절감액을 잡아먹게 됩니다. 그러니 확정하기 전에 테스트하세요. 오후 시간을 할애하여 실제 워크로드 (Workload)를 실행하고 결과를 추적하십시오. 그것이 제가 한 일이며, 제가 단순히 느낌(Vibes)이 아닌 확신을 가지고 이 글을 쓸 수 있는 이유입니다.

제가 실제로 일상에서 사용하는 것

이 모든 테스트를 거친 후, 저의 현재 설정은 다음과 같습니다:

쿼리의 80%는 DeepSeek V4 Flash로 보냅니다. 기본 드라이버입니다. 빠르고 저렴하며, 콘텐츠 제작, 코딩, 일반적인 추론 (Reasoning)에 충분히 좋습니다.
15%는 Qwen3-32B로 보냅니다. 클라이언트에게 보여줄 카피를 위해 약간 더 다듬어진 응답이 필요하거나, 작업에 비전 (Vision) 기능이 포함될 때 사용합니다.
4%는 GLM-4-9B 또는 GLM-5로 보냅니다. 중국어 관련 작업, 특히 고객 대응용 작업에 사용합니다.
1%는 Kimi K2.5로 보냅니다. 틀린 답을 내놓아서는 절대 안 되는 가장 난도가 높은 추론 (Reasoning) 작업에 사용합니다.

이것이 모두에게 적용되는 "정답"은 아닙니다. 만약 업무의 90%가 중국어라면 우선순위를 뒤집으십시오. 만약 리스크가 큰 법률 AI 작업을 하고 있다면 Kimi에 더 비중을 두십시오. 만약 하루에 수백만 개의 토큰을 처리하고 있다면, Qwen과 GLM의 초저가 모델들이 여러분의 친구가 될 것입니다.

이 모든 것을 하나로 묶어주는 코드

모든 것을 Global API를 통해 라우팅 (Routing)할 때 제가 좋아하는 점 중 하나는 폴백 (Fallback) 로직이 매우 간단하다는 것입니다. 특정 모델의 상태가 좋지 않거나, 응답을 A/B 테스트하고 싶을 때, 단 한 줄로 교체할 수 있습니다:

from openai import OpenAI
...