30일 동안 DeepSeek, Qwen, Kimi, GLM을 벤치마킹했습니다 — 수치 결과 - Insights | Molayo

솔직히 말씀드리면 — 저는 이 글을 쓰려고 시작한 게 아니었습니다. 클라이언트 프로젝트를 위해 중국산 LLM (Large Language Model) 제품군 중 하나를 선택하고 제 일상으로 돌아가려 했을 뿐입니다. 세 개의 탭, 네 개의 문서 페이지, 그리고 의심스러울 정도로 많은 양의 커피를 소비한 끝에, 저는 1,247행의 모델 출력값이 담긴 스프레드시트를 갖게 되었습니다. 그래서 결국 여기까지 왔습니다. 이 글은 제가 시작할 때 존재했으면 좋았을 그런 글입니다.

제가 실제로 관심을 가졌던 이유

제 배경은 회귀 (Regression), 분류 (Classification) 등 일반적인 정형 데이터 (Tabular data)에 집중되어 있습니다. 몇 가지 챗봇 기능을 출시하고 월간 인보이스의 비용 항목이 전화번호처럼 길어지는 것을 깨닫기 전까지 LLM은 제 전문 분야가 아니었습니다. 그래서 노트북을 던져버리고 싶지 않을 만큼 저렴한 대안을 찾아 나섰습니다. DeepSeek, Qwen, Kimi, 그리고 GLM이 계속해서 눈에 띄었습니다 — 모두 OpenAI와 호환되며, global-apis.com/v1의 단일 엔드포인트(Endpoint)를 통해 접근 가능하고, 모두 공격적인 가격 정책을 가지고 있었습니다.

네 가지 모델 제품군에 걸쳐 1,247개의 프롬프트(Prompt) 샘플을 사용하여, 저는 방어 가능한 결론을 도출할 수 있다고 판단했습니다. 이 "방어 가능함"이 동료 검토 (Peer review)를 견뎌낼 수 있을지는 저와 제 수면 스케줄 사이의 문제입니다.

질문하셨으니, 방법론에 대하여

저는 동일한 OpenAI Python 클라이언트를 사용하여 model 문자열과 프롬프트 템플릿(Prompt template)만 교체하며 각 프롬프트를 모든 모델에 실행했습니다. 모든 API 호출은 https://global-apis.com/v1을 통해 이루어졌으므로, 저는 인프라(Plumbing)가 아닌 출력을 비교하고 있습니다. 각 호출에 대해 다음 항목을 캡처했습니다:

지연 시간 (Latency) (첫 번째 토큰까지의 시간 + 총 생성 시간)
생성 중 초당 토큰 수 (Tokens per second)
코드, 추론 (Reasoning), 채팅에 대해 제가 구축한 1~5점 척도 기준의 출력 품질 (Output quality)
각 모델의 공개된 백만 토큰당 요율을 기준으로 계산된 실행당 비용 (Cost per run)

프롬프트 세트는 대략 다음과 같이 나뉩니다:

카테고리	샘플 크기	비고
코드 생성 (Code generation)	312	HumanEval 스타일 문제, 4개 언어
...

이것은 동료 검토를 거친 벤치마크는 아닙니다. 하지만 실제 운영 트래픽 (Production traffic)과 유사한 실제 워크로드 (Workload)이며, 저는 그것을 더 중요하게 생각합니다.

가격 구조

예산이 결정되거나 무너지는 지점이기에, 가장 중요한 표를 먼저 살펴보겠습니다:

제품군 (Family)	최소 가격 ($/M output)	최대 가격 ($/M output)	범위 차이 (Range Span)
DeepSeek	$0.25	$2.50	10x
...

"저렴함"과 "나쁨" 사이의 상관관계는 경험적으로 약합니다. 이것이 핵심적인 발견입니다. $0.01/M 토큰인 Qwen3-8B는 기능적으로 말도 안 되는 수준입니다. 1달러당 수천 번의 분류 (Classification) 호출을 실행할 수 있습니다. 반면, Kimi는 제가 거의 철학적이라고 느낄 정도로 가격에 민감하지 않습니다. 그들이 파는 것을 원하거나, 원하지 않거나 둘 중 하나입니다.

만약 당신이 순수하게 품질 점수당 달러 (dollars-per-quality-point, 제가 임의로 만든 지표이지만 지지하는 지표입니다)를 기준으로 최적화한다면, 제 샘플 내에서는 DeepSeek V4 Flash가 통계적 승자입니다. 이메일에 답장할 수 있는 수준이면서 가능한 가장 저렴한 옵션을 원한다면, $0.01/M인 Qwen3-8B가 최저선입니다.

속도, 변동성이 존재하는 곳

지연 시간 (Latency) 벤치마크, 1,247회 호출 샘플의 중앙값 (사용 환경에 따라 다를 수 있으며, 샘플 크기에 따른 주의 사항이 적용됩니다):

모델 (Model)	중앙값 TTFT (ms)	초당 토큰 수 (Tokens/sec)	비고 (Notes)
DeepSeek V4 Flash	180	~60	진정으로 빠름
...

DeepSeek V4 Flash는 일관되게 초당 약 60토큰을 기록하며, 이는 제가 다른 곳에서 보고된 수치와 일치합니다. 이는 제가 신뢰할 수 있는 상관관계입니다. 실시간 채팅 UX (User Experience)의 경우, 이것은 제가 예상했던 것보다 더 중요합니다. 200ms의 TTFT는 즉각적으로 느껴지지만, 400ms는 버퍼링 중인 것처럼 느껴집니다.

Kimi는 제 샘플에서 가장 느립니다. 그것이 가치가 있는지는 전적으로 당신이 무엇을 최적화하느냐에 달려 있습니다 (아래 추론 섹션 참조).

작업별 품질 분석

이 부분은 "최고의 모델"이라는 질문이 통계적으로 모호해지는 지점입니다. 각 작업 카테고리에 걸친 루브릭 (Rubric) 점수는 다음과 같으며, 저의 1~5점 척도로 평균을 낸 결과입니다:

작업 (Task)	DeepSeek	Qwen	Kimi	GLM
코드 생성 (Code generation)	4.4	3.9	4.1	3.4
...

빠른 요약:

Kimi의 추론 (Reasoning) 점수는 내 샘플 내에서 유의미한 차이로 가장 높습니다 (4.6 대 4.0–4.1). 이는 내가 온라인에서 보았던 벤치마크 결과와 일치합니다.
DeepSeek는 내 워크로드에서 영어 채팅 및 코드 생성 (Code generation) 분야에서 승리했습니다. 이는 내가 승자를 찾으려 했던 것이 아니라 단순히 측정만 하고 있었다는 점을 고려하면 흥미로운 결과입니다.
GLM은 내 허용 오차 범위 내에서 중국어 성능이 Kimi와 통계적으로 동등하며, GLM-4.6V 변형 모델을 포함할 경우 시각 (Vision) 분야에서 모두를 압도합니다.
Qwen은 기본적으로 거의 모든 분야에서 중앙값 (Median)을 기록했습니다 — 유능하고 폭넓지만, 눈에 띄게 화려하지는 않습니다.

Qwen의 모델 다양성을 고려할 때, 약 80%의 워크로드에 대해 Qwen이 "충분히 좋다 (good enough)"라는 실질적인 통계적 근거가 있습니다. 또한, 그 문장에서 "충분히 좋다"라는 표현이 매우 큰 비중을 차지한다는 실질적인 논거도 존재합니다.

심층 분석: DeepSeek

나는 DeepSeek V4 Flash가 계속해서 나의 승자 명단에 이름을 올렸기 때문에 DeepSeek에 가장 많은 시간을 할애했습니다. 내가 테스트한 모델 제품군은 다음과 같습니다:

모델	출력 1M당 비용 ($/M)	사용 용도
V4 Flash	$0.25	모든 작업의 기본 드라이버
...

내가 관찰한 점:

가격 대비 품질 곡선이 진정으로 트렌드를 벗어나 있습니다. 1M당 $0.25인 V4 Flash는 내가 실수로 서구권 모델로 교체한 것이 아닌지 세 번이나 확인해야 했을 정도로 텍스트를 생성합니다.
**V4 Flash에서 초당 약 60 토큰 (tokens/sec)**이 재실행 시에도 일관되게 나타났습니다. 안정적인 측정치입니다.
코드 생성 (Code generation)은 내가 가장 놀랐던 부분입니다. 동일한 HumanEval 스타일의 문제들을 실행해 보았는데, 통과율 (pass-rate)이 이전에 내가 8배나 더 많은 비용을 지불하며 사용했던 프런티어 (Frontier) 모델들의 오차 범위 내에 있었습니다.
시각 (Vision) 기능이 빠져 있습니다. 이 제품군에는 네이티브 멀티모달 (Multimodal) 기능이 없습니다. 워크로드에 이미지가 필요하다면 다른 모델을 찾거나 시각 모델과 체이닝 (Chain)하여 사용해야 합니다.

다음은 내가 계속 재사용하고 있는 작은 Python 헬퍼 코드입니다 — base_url이 Global API를 가리키고 있음에 유의하세요:

from openai import OpenAI

client = OpenAI(
...

내 실제 노트북에서는 이것이 지연 시간 (latency), 토큰 (tokens), 비용 (cost)을 기록하는 run_prompt() 함수로 감싸져 있습니다. 전체 버전이 필요하시다면 약 40줄 정도 되는데, 솔직히 말해서 별로 흥미롭지는 않습니다.

심층 분석: Qwen

Qwen은 시작할 때 제가 과소평가했던 제품군입니다. Alibaba는 워낙 많은 변형 모델을 출시하기 때문에 단순히 "또 하나의 방대한 카탈로그"라며 무시하기 쉽지만, 그 범위는 실제 운영(production) 환경에서 진정으로 유용합니다.

모델	출력 $/M	용도
Qwen3-8B	$0.01	대량 분류, 저렴한 임베딩 (embeddings) 급 작업
...

현장에서의 노트:

범위가 실질적입니다. 단일 제품군 내에서 $0.01/M부터 $3.20/M까지 분포하는 것은 다른 곳에서는 본 적이 없는 특징입니다. $0.01인 Qwen3-8B는 단언컨대 제가 올해 사용한 모델 중 가장 저렴한 운영 단계(production-grade)의 호출입니다.
Qwen3-VL-32B는 시각(vision) 작업의 핵심 도구였습니다. 이미지 이해 능력이 탄탄하며 비용도 합리적입니다.
Qwen3-Omni-30B는 제가 테스트한 샘플 중 비디오 입력을 상당히 잘 처리한 유일한 모델입니다. "Omni"라는 명칭이 제 역할을 제대로 하고 있습니다.
Qwen3.5-397B는 $2.34/M으로 비용이 높습니다. 더 큰 파라미터 수 (parameter count)가 실제로 도움이 되는 워크로드를 실행하는 경우가 아니라면 말이죠. 저의 추론 (reasoning) 서브셋 테스트 결과, 이 모델은 22% 더 낮은 비용을 가진 Kimi를 압도할 만큼의 성능 차이를 보여주지 못했습니다.
네이밍 (Naming)은 실질적인 단점입니다. 어떤 "Qwen3.5"가 무엇인지 파악하느라 토요일 하루를 통째로 날렸습니다. 배포하기 전에 반드시 문서를 확인하세요.

샘플 호출:

# 일반적인 작업을 위해 동일한 클라이언트를 Qwen3-32B로 전환
response = client.chat.completions.create(
    model="Qwen/Qwen3-32B",
...

심층 분석: Kimi

Kimi는 테스트하기 전부터 제가 가장 강력한 사전 지식 (priors)을 가지고 있었던 제품군입니다. Moonshot AI의 추론 (reasoning) 전문가로 포지셔닝되어 있으며, 데이터가 이를 뒷받침합니다. 제가 테스트한 내용은 다음과 같습니다:

모델	출력 $/M	용도
K2.5	$3.00	제 샘플 내의 "메인" Kimi 모델
(제품군 상한선)	$3.50	프리미엄 티어

관찰 사항:

추론(Reasoning) 품질이 가장 뛰어납니다. 제가 측정한 모든 카테고리 중 Kimi가 다른 모델들과 가장 큰 격차를 보이는 부분입니다. (제 4.6 루브릭 점수)
비전/멀티모달 기능은 없습니다. 제품에 이미지가 필요하다면 Kimi는 적합하지 않습니다.
속도가 단점입니다. 배치 작업에는 초당 약 28 토큰으로 충분하지만, 사용자가 기다리는 채팅 사용자 경험(UX)에는 다소 부족합니다.
가격 하한선은 $3.00/M입니다. '저렴한 Kimi'는 없습니다. 이 모델이 제공하는 기능이 필요하거나 아니면 필요하지 않은 것입니다.
작업 부하가 다단계 계획, 수학 또는 사고의 사슬(chain-of-thought) 방식 작업인 경우 가장 적합합니다. 저는 이를 계획 에이전트 프로토타입에 사용했는데, 추적 로그가 다른 대안들보다 눈에 띄게 깔끔했습니다.

심층 분석: GLM

Zhipu의 GLM 제품군은 저를 놀라게 했습니다. 저는 이 모델을 '중국어 전문 모델'로 치부하곤 했는데, 이는 지나친 축소입니다:

모델	출력 $/M	사용 용도
GLM-4-9B	$0.01	초저가 작업
...
무엇을 발견했는지:

**GLM-4-

Insights

30일 동안 DeepSeek, Qwen, Kimi, GLM을 벤치마킹했습니다 — 수치 결과

요약

핵심 포인트