DeepSeek, Qwen, Kimi, GLM을 한 달 동안 테스트해 본 결과 - 실제 결과 - Insights | Molayo

솔직히 말해서, 제가 중국 AI 모델들에 대해 글을 쓰게 될 줄은 꿈에도 몰랐습니다. 불과 1년 전만 해도 저는 OpenAI에 출력 토큰당 10달러를 지불하면서도 만족하고 있었죠. 그러다 이 중국 연구소들이 무엇을 내놓고 있는지 살펴보기 시작했고... 음, 제 클라우드 비용 청구서가 지금은 매우 달라졌다고만 말씀드리겠습니다.

상황은 이렇습니다: DeepSeek, Qwen, Kimi, 그리고 GLM은 현재 중국 AI 업계의 사실상 '4기사(four horsemen)'와 같습니다. 각각 서로 다른 연구소에서 나왔고, 각기 완전히 다른 분위기를 풍기며, 가격대는 말 그대로 잔돈 수준부터 "이거 오타 아니야?" 싶은 수준까지 다양합니다. 저는 약 한 달 동안 이 네 가지 모델 모두를 실제 워크로드(workloads)에 투입해 보았습니다. 제가 실제로 발견한 것들은 다음과 같습니다.

왜 굳이 이 작업을 했는가

저는 아주 작은 SaaS(월간 반복 매출(MRR)이 몇 천 달러 수준인, 대단치 않은 규모)를 운영하고 있는데, 제 지출 중 압도적으로 가장 큰 부분은 API 호출 비용입니다. 솔직히 그렇게 비쌀 필요가 없는 작업들에 GPT-4o를 사용하느라 돈이 줄줄 새고 있었습니다. 제 친구(Wei에게 감사를 표합니다)는 중국 모델들이 이미 따라잡았다고 계속 말해왔습니다. 저는 회의적이었죠. 그러다 충동적으로 DeepSeek V4 Flash를 써봤는데... 네, 입이 떡 벌어졌습니다.

문제는 이 네 가지 모델 중에서 하나를 고르는 것이 짜증 난다는 점입니다. 왜냐하면 모두 각기 다른 방식으로 훌륭하기 때문입니다. DeepSeek는 저렴합니다. Qwen은 모델이 47개나 됩니다. Kimi는 무서울 정도로 똑똑합니다. GLM은 중국어를 원어민처럼 다룹니다(놀랍겠지만요). 그래서 저는 합성 벤치마크(synthetic benchmarks) 대신 실제 고객 업무에 이 모델들을 한 달 동안 직접 사용해 보았습니다. 아래 내용은 거의 모두 그 고된 과정에서 나온 결과물입니다.

빠르고 간략한 비교

긴 이야기를 시작하기 전에, 누군가 첫날 저에게 건네주었으면 좋았을 요약표를 먼저 보여드리겠습니다:

항목	DeepSeek	Qwen	Kimi	GLM
개발사	DeepSeek (幻方)	Alibaba (阿里)	Moonshot AI (月之暗面)	Zhipu AI (智谱)
...

네 모델 모두 OpenAI 호환 엔드포인트(OpenAI-compatible endpoints)를 사용하는데, 이는 코드베이스를 다시 작성할 필요 없이 모델을 교체할 수 있다는 점에서 엄청난 장점입니다. 저는 바로 그런 방식으로 테스트했습니다. 동일한 프롬프트(prompts)를 사용하고, 모델 문자열(model strings)만 바꿔가며 출력을 비교했습니다. 말이 나온 김에, 이것이 얼마나 쉬운지 보여드리겠습니다.

from openai import OpenAI

client = OpenAI(
...

그게 전부입니다. 이게 전부예요. 네 가지 서로 다른 인증 방식(auth schemes)을 가진 네 개의 서로 다른 API에 가입할 필요가 없습니다. 모델 이름만 바꾸면 끝입니다. 이에 대해서는 나중에 더 자세히 다루겠습니다.

DeepSeek: 이제 나의 데일리 드라이버(Daily Driver)

좋아요, 결국 제가 가장 많이 사용하게 된 것은 DeepSeek입니다. 가치 제안(value proposition)이 그냥... 말도 안 되게 좋습니다. V4 Flash는 출력 토큰 100만 개(M)당 0.25달러입니다. 이 수치를 잘 생각해보세요. 오타가 아닙니다.

모델 라인업은 다음과 같습니다:

모델	출력 $/M	용도
V4 Flash	$0.25	일상적인 코딩, 콘텐츠, 기본적으로 모든 것
...

V4 Flash는 제가 기본값으로 사용하는 모델입니다. 초당 약 60토큰(tokens/sec)의 속도를 내는데, 대부분의 작업에서 즉각적인 느낌을 주며 출력 품질은 진심으로 저를 놀라게 했습니다. 요약, 코드 리뷰, 콘텐츠 재작성 같은 지루한 일상적인 작업들에 사용해 보았는데, GPT-4o가 작성했다고 장담할 법한 결과물을 계속해서 만들어냈습니다.

좋았던 점:

가성비(Price-to-performance ratio)가 미쳤습니다. 첫 주에 API 비용을 말 그대로 70%나 절감했습니다.
코드 생성 능력이 최상위권입니다. HumanEval, MBPP 등 어떤 벤치마크를 던져주어도 잘 해냅니다.
속도. Flash 모델에서 초당 60토큰은 응답이 매우 빠릿빠릿하게 느껴짐을 의미합니다.
영어 출력은 대부분의 작업에서 서구권의 대형 모델들과 구분이 불가능할 정도입니다.
오픈 웨이트(open-weight) 계열이라 왠지 모르게 덜 불안하게 느껴집니다.

불편했던 점:

비전(vision) 기능이 없습니다. 이미지 이해가 필요하다면 다른 모델을 찾아보세요.
중국어가 GLM이나 Kimi만큼 뛰어나지는 않습니다. 좋긴 하지만, 최고는 아닙니다.
모델 사이즈가 적습니다. 만약 모델 크기에 까다롭다면 Qwen은 대략 열 배는 더 많은 옵션을 가지고 있습니다.

순수 코딩 작업에 있어서, 이 가격대의 DeepSeek는 이기기 어렵습니다. 저는 V4 Flash를 페어 프로그래머(pair programmer)로 사용하여 오후 한나절 만에 전체 기능을 구축했는데, 코드가 제가 직접 썼을 때보다 더 깔끔했습니다. 과장이 아닙니다.

Qwen: 옵션이 필요할 때

Qwen은 Alibaba의 자식 모델이며, 기본적으로 "모든 것을 갖춘" 상점과 같습니다. DeepSeek가 잘 큐레이션된 부티크라면, Qwen은 거대한 백화점입니다. 말 그대로 모든 니치(niche) 시장을 위한 모델을 보유하고 있습니다.

이 라인업을 확인해 보세요:

모델	출력 $ / M	용도
Qwen3-8B	$0.01	아주 작은 작업, 분류, 저렴한 작업
...

Qwen3-8B의 $0.01/M은 진짜입니다. 저는 이를 라우팅 (routing) 용도로 사용합니다. 예를 들어, 사용자 쿼리가 대형 모델을 필요로 하는지, 아니면 소형 모델로 처리 가능한지를 결정하는 식입니다. 비용이 거의 들지 않습니다.

좋았던 점:

이번 비교군 중 가장 넓은 모델 범위를 제공합니다. $0.01부터 $3.20까지 모든 예산을 커버합니다.
비전 모델 (VL 시리즈)이 진정으로 뛰어납니다.
옴니모달 (Omni-modal) 지원을 통해 하나의 모델에서 오디오, 비디오, 이미지를 처리할 수 있습니다.
Alibaba의 지원 덕분에 인프라가 중단되지 않습니다.
새로운 버전을 끊임없이 출시합니다. Qwen3.5, Qwen3.6 등 항상 새로운 것이 있습니다.

불편했던 점:

네이밍 (Naming)이 엉망입니다. Qwen3-32B, Qwen3.5-397B, Qwen3.6-35B 등 이름을 추적하는 것 자체가 일입니다.
영어 실력은 좋지만 DeepSeek 수준은 아닙니다. 때때로 출력이 약간 딱딱할 때가 있습니다.
일부 모델은 다소 비쌉니다. Qwen3.6-35B의 $1/M은 성능 대비 비싸게 느껴집니다.

제가 사용하는 방식은 다음과 같습니다:

response = client.chat.completions.create(
    model="Qwen/Qwen3-32B",
    messages=[{"role": "user", "content": "Write a Python function to merge two sorted lists"}]
...

Qwen은 AI 지출을 최적화하기 시작하는 팀에게 추천하고 싶은 모델입니다. 8B 모델은 매우 저렴해서 라우팅 (routing) 용도로 마구 사용할 수 있으며, 실제 품질이 필요할 때 32B 이상의 모델로 에스컬레이션 (escalate)하면 됩니다.

Kimi: 똑똑한 모델

Kimi는 Moonshot AI에서 나왔습니다 (이름인 月之暗面은 문자 그대로 "달의 뒷면"을 의미하는데, 멋진 이름입니다). 이 모델은 사고하는 모델 (thinking model)으로 포지셔닝되어 있습니다. 사고의 사슬 (chain-of-thought), 단계별 추론 (step-by-step reasoning) 작업들을 아시나요? Kimi는 그런 작업에 정말 뛰어납니다.

Kimi의 가격은 전반적으로 더 높습니다:

모델	출력 $/M	용도
K2.5	$3.00	추론 (reasoning), 복잡한 논리 (complex logic)
(기타)	최대 $3.50	프리미엄 티어 (premium tier)

네, 최소 $3.00/M입니다. 이는 DeepSeek V4 Flash 비용의 약 12배에 달합니다. 하지만 핵심은 이겁니다. 추론 (reasoning)이 '필요할' 때는, 반드시 추론이 필요하다는 것이죠. 다단계 논리 (multi-step logic), 수학, 또는 까다로운 분석 작업이 필요한 태스크에서 Kimi는 이들 중 가장 뛰어났습니다.

좋았던 점:

추론 (reasoning) 벤치마크 - 압도적인 성능을 보여줍니다
중국어 출력이 매우 자연스럽습니다
긴 문서에 대한 컨텍스트 처리 (context handling) 능력이 탄탄합니다
복잡한 태스크에 대한 출력 품질이 진정으로 최상위권입니다

불만족스러웠던 점:

비쌉니다. $3.00/M은 금방 쌓입니다
다른 모델들보다 느립니다. 빠릿빠릿한 응답이 필요하다면 적합하지 않습니다
시각/멀티모달 (vision/multimodal) 지원이 없습니다
모델 라인업이 더 적습니다

저는 정말 깊게 생각해야 할 때만 Kimi를 사용했습니다. 예를 들어, 아주 까다로운 알고리즘 문제를 디버깅하거나 50페이지 분량의 계약서를 분석할 때 말이죠. 일상적인 작업에는? 완전히 과합니다.

GLM: 중국어의 챔피언

GLM은 Zhipu AI에서 만든 모델로, 작업에 중국어가 포함된다면 반드시 넘어야 할 산입니다. GLM이 무엇의 약자인지는... 사실 항상 까먹습니다. 상관없습니다. 중요한 건 중국어를 '정말' 잘한다는 점입니다.

가격 책정이 흥미롭습니다:

모델	출력 $/M	용도
GLM-4-9B	$0.01	저예산 중국어 태스크
GLM-5	$1.92	최상위 티어

9B 모델의 $0.01/M이라는 진입 가격은 놀랍습니다. 가지고 있던 중국어 콘텐츠로 테스트해 보았는데... 동일한 크기의 DeepSeek나 Qwen보다 눈에 띄게 나았습니다. 단어를 하나하나 번역하는 대신, 뉘앙스와 관용구를 실제로 이해하고 있었습니다.

좋았던 점:

네 모델 중 최고의 중국어 품질을 보여줍니다
GLM-4.6V는 탄탄한 비전 (vision) 모델입니다
전 라인업에 걸쳐 합리적인 가격대를 형성하고 있습니다
OpenAI 호환 API를 제공합니다

불만족스러웠던 점:

코드 생성 (code generation) 능력이 네 모델 중 가장 약합니다. 개발 도구를 구축 중이라면 다른 모델을 찾아보세요
Qwen이나 DeepSeek에 비해 커뮤니티 규모가 작습니다
영어 출력은 괜찮지만 영감을 줄 정도는 아닙니다

만약 제가 중국 시장에 특화된 제품(번역 앱, 콘텐츠 도구 등 무엇이든)을 만든다면, GLM을 선택할 것입니다. 그 외의 모든 경우에는 훌륭한 차선책입니다.

최종 결론: 실제로 무엇을 사용할 것인가

한 달 동안 실제 워크로드 (workloads)를 실행해 본 결과, 저의 솔직한 의견은 다음과 같습니다:

대부분의 인디 해커 (indie hackers)들에게: DeepSeek V

Insights

DeepSeek, Qwen, Kimi, GLM을 한 달 동안 테스트해 본 결과 - 실제 결과

요약

핵심 포인트

왜 굳이 이 작업을 했는가

빠르고 간략한 비교

DeepSeek: 이제 나의 데일리 드라이버(Daily Driver)

Qwen: 옵션이 필요할 때

Kimi: 똑똑한 모델

GLM: 중국어의 챔피언

최종 결론: 실제로 무엇을 사용할 것인가

댓글

오직 오픈 소스만으로 AI 에이전트를 구축했습니다 — 비용은 0달러

짐 래트클리프 경의 Ineos, 미국이 영국에 저가 플라스틱을 덤핑하고 있다고 비난

Tesla, 판매 증대를 위해 미국에서 6인승 Model Y L 출시

새로운 영상 없이, 클라우드 학습 없이 하이라이트 탐지 성능을 0.56에서 0.86으로 끌어올린 방법

짐 래트클리프 경의 Ineos, 미국이 영국에 저가 플라스틱을 덤핑하고 있다고 비난

Tesla, 판매 증대를 위해 미국에서 6인승 Model Y L 출시

새로운 영상 없이, 클라우드 학습 없이 하이라이트 탐지 성능을 0.56에서 0.86으로 끌어올린 방법