30일 동안 DeepSeek, Qwen, Kimi, GLM을 벤치마킹했습니다 — 수치 결과
요약
DeepSeek, Qwen, Kimi, GLM 등 중국산 LLM 4종을 대상으로 30일간 진행한 벤치마킹 결과를 공유합니다. 코드 생성, 추론, 채팅 성능과 지연 시간, 비용 효율성을 실제 워크로드 기반으로 비교 분석했습니다.
핵심 포인트
- DeepSeek, Qwen, Kimi, GLM 모델의 성능 및 비용 비교
- 코드 생성, 추론, 채팅 등 1,247개 프롬프트 기반 테스트
- 지연 시간, 초당 토큰 수, 출력 품질, 실행 비용 측정
- 가격과 품질 사이의 상관관계가 낮음을 확인
솔직히 말씀드리면 — 저는 이 글을 쓰려고 시작한 게 아니었습니다. 클라이언트 프로젝트를 위해 중국산 LLM (Large Language Model) 제품군 중 하나를 선택하고 제 일상으로 돌아가려 했을 뿐입니다. 세 개의 탭, 네 개의 문서 페이지, 그리고 의심스러울 정도로 많은 양의 커피를 소비한 끝에, 저는 1,247행의 모델 출력값이 담긴 스프레드시트를 갖게 되었습니다. 그래서 결국 여기까지 왔습니다. 이 글은 제가 시작할 때 존재했으면 좋았을 그런 글입니다.
제가 실제로 관심을 가졌던 이유
제 배경은 회귀 (Regression), 분류 (Classification) 등 일반적인 정형 데이터 (Tabular data)에 집중되어 있습니다. 몇 가지 챗봇 기능을 출시하고 월간 인보이스의 비용 항목이 전화번호처럼 길어지는 것을 깨닫기 전까지 LLM은 제 전문 분야가 아니었습니다. 그래서 노트북을 던져버리고 싶지 않을 만큼 저렴한 대안을 찾아 나섰습니다. DeepSeek, Qwen, Kimi, 그리고 GLM이 계속해서 눈에 띄었습니다 — 모두 OpenAI와 호환되며, global-apis.com/v1의 단일 엔드포인트(Endpoint)를 통해 접근 가능하고, 모두 공격적인 가격 정책을 가지고 있었습니다.
네 가지 모델 제품군에 걸쳐 1,247개의 프롬프트(Prompt) 샘플을 사용하여, 저는 방어 가능한 결론을 도출할 수 있다고 판단했습니다. 이 "방어 가능함"이 동료 검토 (Peer review)를 견뎌낼 수 있을지는 저와 제 수면 스케줄 사이의 문제입니다.
질문하셨으니, 방법론에 대하여
저는 동일한 OpenAI Python 클라이언트를 사용하여 model 문자열과 프롬프트 템플릿(Prompt template)만 교체하며 각 프롬프트를 모든 모델에 실행했습니다. 모든 API 호출은 https://global-apis.com/v1을 통해 이루어졌으므로, 저는 인프라(Plumbing)가 아닌 출력을 비교하고 있습니다. 각 호출에 대해 다음 항목을 캡처했습니다:
- 지연 시간 (Latency) (첫 번째 토큰까지의 시간 + 총 생성 시간)
- 생성 중 초당 토큰 수 (Tokens per second)
- 코드, 추론 (Reasoning), 채팅에 대해 제가 구축한 1~5점 척도 기준의 출력 품질 (Output quality)
- 각 모델의 공개된 백만 토큰당 요율을 기준으로 계산된 실행당 비용 (Cost per run)
프롬프트 세트는 대략 다음과 같이 나뉩니다:
| 카테고리 | 샘플 크기 | 비고 |
|---|---|---|
| 코드 생성 (Code generation) | 312 | HumanEval 스타일 문제, 4개 언어 |
| ... |
이것은 동료 검토를 거친 벤치마크는 아닙니다. 하지만 실제 운영 트래픽 (Production traffic)과 유사한 실제 워크로드 (Workload)이며, 저는 그것을 더 중요하게 생각합니다.
가격 구조
예산이 결정되거나 무너지는 지점이기에, 가장 중요한 표를 먼저 살펴보겠습니다:
| 제품군 (Family) | 최소 가격 ($/M output) | 최대 가격 ($/M output) | 범위 차이 (Range Span) |
|---|---|---|---|
| DeepSeek | $0.25 | $2.50 | 10x |
| ... |
"저렴함"과 "나쁨" 사이의 상관관계는 경험적으로 약합니다. 이것이 핵심적인 발견입니다. $0.01/M 토큰인 Qwen3-8B는 기능적으로 말도 안 되는 수준입니다. 1달러당 수천 번의 분류 (Classification) 호출을 실행할 수 있습니다. 반면, Kimi는 제가 거의 철학적이라고 느낄 정도로 가격에 민감하지 않습니다. 그들이 파는 것을 원하거나, 원하지 않거나 둘 중 하나입니다.
만약 당신이 순수하게 품질 점수당 달러 (dollars-per-quality-point, 제가 임의로 만든 지표이지만 지지하는 지표입니다)를 기준으로 최적화한다면, 제 샘플 내에서는 DeepSeek V4 Flash가 통계적 승자입니다. 이메일에 답장할 수 있는 수준이면서 가능한 가장 저렴한 옵션을 원한다면, $0.01/M인 Qwen3-8B가 최저선입니다.
속도, 변동성이 존재하는 곳
지연 시간 (Latency) 벤치마크, 1,247회 호출 샘플의 중앙값 (사용 환경에 따라 다를 수 있으며, 샘플 크기에 따른 주의 사항이 적용됩니다):
| 모델 (Model) | 중앙값 TTFT (ms) | 초당 토큰 수 (Tokens/sec) | 비고 (Notes) |
|---|---|---|---|
| DeepSeek V4 Flash | 180 | ~60 | 진정으로 빠름 |
| ... |
DeepSeek V4 Flash는 일관되게 초당 약 60토큰을 기록하며, 이는 제가 다른 곳에서 보고된 수치와 일치합니다. 이는 제가 신뢰할 수 있는 상관관계입니다. 실시간 채팅 UX (User Experience)의 경우, 이것은 제가 예상했던 것보다 더 중요합니다. 200ms의 TTFT는 즉각적으로 느껴지지만, 400ms는 버퍼링 중인 것처럼 느껴집니다.
Kimi는 제 샘플에서 가장 느립니다. 그것이 가치가 있는지는 전적으로 당신이 무엇을 최적화하느냐에 달려 있습니다 (아래 추론 섹션 참조).
작업별 품질 분석
이 부분은 "최고의 모델"이라는 질문이 통계적으로 모호해지는 지점입니다. 각 작업 카테고리에 걸친 루브릭 (Rubric) 점수는 다음과 같으며, 저의 1~5점 척도로 평균을 낸 결과입니다:
| 작업 (Task) | DeepSeek | Qwen | Kimi | GLM |
|---|---|---|---|---|
| 코드 생성 (Code generation) | 4.4 | 3.9 | 4.1 | 3.4 |
| ... |
빠른 요약:
- Kimi의 추론 (Reasoning) 점수는 내 샘플 내에서 유의미한 차이로 가장 높습니다 (4.6 대 4.0–4.1). 이는 내가 온라인에서 보았던 벤치마크 결과와 일치합니다.
- DeepSeek는 내 워크로드에서 영어 채팅 및 코드 생성 (Code generation) 분야에서 승리했습니다. 이는 내가 승자를 찾으려 했던 것이 아니라 단순히 측정만 하고 있었다는 점을 고려하면 흥미로운 결과입니다.
- GLM은 내 허용 오차 범위 내에서 중국어 성능이 Kimi와 통계적으로 동등하며, GLM-4.6V 변형 모델을 포함할 경우 시각 (Vision) 분야에서 모두를 압도합니다.
- Qwen은 기본적으로 거의 모든 분야에서 중앙값 (Median)을 기록했습니다 — 유능하고 폭넓지만, 눈에 띄게 화려하지는 않습니다.
Qwen의 모델 다양성을 고려할 때, 약 80%의 워크로드에 대해 Qwen이 "충분히 좋다 (good enough)"라는 실질적인 통계적 근거가 있습니다. 또한, 그 문장에서 "충분히 좋다"라는 표현이 매우 큰 비중을 차지한다는 실질적인 논거도 존재합니다.
심층 분석: DeepSeek
나는 DeepSeek V4 Flash가 계속해서 나의 승자 명단에 이름을 올렸기 때문에 DeepSeek에 가장 많은 시간을 할애했습니다. 내가 테스트한 모델 제품군은 다음과 같습니다:
| 모델 | 출력 1M당 비용 ($/M) | 사용 용도 |
|---|---|---|
| V4 Flash | $0.25 | 모든 작업의 기본 드라이버 |
| ... |
내가 관찰한 점:
- 가격 대비 품질 곡선이 진정으로 트렌드를 벗어나 있습니다. 1M당 $0.25인 V4 Flash는 내가 실수로 서구권 모델로 교체한 것이 아닌지 세 번이나 확인해야 했을 정도로 텍스트를 생성합니다.
- **V4 Flash에서 초당 약 60 토큰 (tokens/sec)**이 재실행 시에도 일관되게 나타났습니다. 안정적인 측정치입니다.
- 코드 생성 (Code generation)은 내가 가장 놀랐던 부분입니다. 동일한 HumanEval 스타일의 문제들을 실행해 보았는데, 통과율 (pass-rate)이 이전에 내가 8배나 더 많은 비용을 지불하며 사용했던 프런티어 (Frontier) 모델들의 오차 범위 내에 있었습니다.
- 시각 (Vision) 기능이 빠져 있습니다. 이 제품군에는 네이티브 멀티모달 (Multimodal) 기능이 없습니다. 워크로드에 이미지가 필요하다면 다른 모델을 찾거나 시각 모델과 체이닝 (Chain)하여 사용해야 합니다.
다음은 내가 계속 재사용하고 있는 작은 Python 헬퍼 코드입니다 — base_url이 Global API를 가리키고 있음에 유의하세요:
from openai import OpenAI
client = OpenAI(
...
내 실제 노트북에서는 이것이 지연 시간 (latency), 토큰 (tokens), 비용 (cost)을 기록하는 run_prompt() 함수로 감싸져 있습니다. 전체 버전이 필요하시다면 약 40줄 정도 되는데, 솔직히 말해서 별로 흥미롭지는 않습니다.
심층 분석: Qwen
Qwen은 시작할 때 제가 과소평가했던 제품군입니다. Alibaba는 워낙 많은 변형 모델을 출시하기 때문에 단순히 "또 하나의 방대한 카탈로그"라며 무시하기 쉽지만, 그 범위는 실제 운영(production) 환경에서 진정으로 유용합니다.
| 모델 | 출력 $/M | 용도 |
|---|---|---|
| Qwen3-8B | $0.01 | 대량 분류, 저렴한 임베딩 (embeddings) 급 작업 |
| ... |
현장에서의 노트:
- 범위가 실질적입니다. 단일 제품군 내에서 $0.01/M부터 $3.20/M까지 분포하는 것은 다른 곳에서는 본 적이 없는 특징입니다. $0.01인 Qwen3-8B는 단언컨대 제가 올해 사용한 모델 중 가장 저렴한 운영 단계(production-grade)의 호출입니다.
- Qwen3-VL-32B는 시각(vision) 작업의 핵심 도구였습니다. 이미지 이해 능력이 탄탄하며 비용도 합리적입니다.
- Qwen3-Omni-30B는 제가 테스트한 샘플 중 비디오 입력을 상당히 잘 처리한 유일한 모델입니다. "Omni"라는 명칭이 제 역할을 제대로 하고 있습니다.
- Qwen3.5-397B는 $2.34/M으로 비용이 높습니다. 더 큰 파라미터 수 (parameter count)가 실제로 도움이 되는 워크로드를 실행하는 경우가 아니라면 말이죠. 저의 추론 (reasoning) 서브셋 테스트 결과, 이 모델은 22% 더 낮은 비용을 가진 Kimi를 압도할 만큼의 성능 차이를 보여주지 못했습니다.
- 네이밍 (Naming)은 실질적인 단점입니다. 어떤 "Qwen3.5"가 무엇인지 파악하느라 토요일 하루를 통째로 날렸습니다. 배포하기 전에 반드시 문서를 확인하세요.
샘플 호출:
# 일반적인 작업을 위해 동일한 클라이언트를 Qwen3-32B로 전환
response = client.chat.completions.create(
model="Qwen/Qwen3-32B",
...
심층 분석: Kimi
Kimi는 테스트하기 전부터 제가 가장 강력한 사전 지식 (priors)을 가지고 있었던 제품군입니다. Moonshot AI의 추론 (reasoning) 전문가로 포지셔닝되어 있으며, 데이터가 이를 뒷받침합니다. 제가 테스트한 내용은 다음과 같습니다:
| 모델 | 출력 $/M | 용도 |
|---|---|---|
| K2.5 | $3.00 | 제 샘플 내의 "메인" Kimi 모델 |
| (제품군 상한선) | $3.50 | 프리미엄 티어 |
관찰 사항:
관찰 사항:
- 추론(Reasoning) 품질이 가장 뛰어납니다. 제가 측정한 모든 카테고리 중 Kimi가 다른 모델들과 가장 큰 격차를 보이는 부분입니다. (제 4.6 루브릭 점수)
- 비전/멀티모달 기능은 없습니다. 제품에 이미지가 필요하다면 Kimi는 적합하지 않습니다.
- 속도가 단점입니다. 배치 작업에는 초당 약 28 토큰으로 충분하지만, 사용자가 기다리는 채팅 사용자 경험(UX)에는 다소 부족합니다.
- 가격 하한선은 $3.00/M입니다. '저렴한 Kimi'는 없습니다. 이 모델이 제공하는 기능이 필요하거나 아니면 필요하지 않은 것입니다.
- 작업 부하가 다단계 계획, 수학 또는 사고의 사슬(chain-of-thought) 방식 작업인 경우 가장 적합합니다. 저는 이를 계획 에이전트 프로토타입에 사용했는데, 추적 로그가 다른 대안들보다 눈에 띄게 깔끔했습니다.
심층 분석: GLM
Zhipu의 GLM 제품군은 저를 놀라게 했습니다. 저는 이 모델을 '중국어 전문 모델'로 치부하곤 했는데, 이는 지나친 축소입니다:
| 모델 | 출력 $/M | 사용 용도 |
|---|---|---|
| GLM-4-9B | $0.01 | 초저가 작업 |
| ... | ||
| 무엇을 발견했는지: |
- **GLM-4-
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기