주말 내내 중국 AI 모델들을 GPT-4o와 비교해 보았습니다 — 정말 충격적이었습니다 - Insights | Molayo

자, 무슨 일이 있었는지 말씀드릴게요. 주말 내내 중국 AI 모델들을 GPT-4o와 비교해 보았습니다 — 정말 충격적이었습니다.

저는 불과 3개월 전에 코딩 부트캠프 (coding bootcamp)를 졸업했고, 미친 듯이 작은 사이드 프로젝트들을 만들어 오고 있습니다. 그중 하나는 제 친구의 베이커리 웹사이트를 위한 챗봇입니다 (네, 정말이에요 — 그녀는 사워도우를 팔고, 네, 정말 귀엽습니다). 어쨌든, 저는 OpenAI 크레딧을 빠르게 소진하고 있었고, 더 저렴한 방법이 있을지 궁금해지기 시작했습니다. 그렇게 저는 이 토끼굴 (rabbit hole)에 빠지게 되었습니다.

제가 무엇을 발견하게 될지 전혀 몰랐습니다.

모든 것이 시작된 계기 (그리고 제가 이 글을 쓰는 이유)

사정은 이렇습니다. 부트캠프에 있을 때, 우리는 기본적으로 모든 것에 GPT-4o를 사용했습니다. 숙제, 디버깅 (debugging), 더미 데이터 (dummy data) 생성, 테스트 작성 — 평소 하던 일들이죠. 저는 그냥 모두가 그것을 사용한다고 가정했습니다. 왜냐하면, 글쎄요, 모두가 그것에 대해서만 이야기했으니까요.

그러던 어느 날 밤, Reddit에서 무의미하게 스크롤을 내리고 있는데 누군가 DeepSeek을 언급했습니다. 링크를 클릭해 그들의 사이트에 접속하자마자 벽에 부딪혔습니다. 중국 전화번호로 가입하라고 하더군요. 저는 말 그대로 중국 전화번호가 없습니다. 탭을 닫았고, 시도조차 해본 제 자신이 좀 바보 같다고 느꼈습니다.

하지만 닫기 전에 봤던 가격들은 어땠을까요? 머릿속에서 떠나지 않았습니다. 가격이 얼마나 낮은지 보고 정말 충격받았습니다.

저는 몇몇 Discord 서버에서 주변에 물어보기 시작했습니다. 누군가 저에게 Global API라는 것을 알려주었습니다. 그들은 OpenAI가 사용하는 것과 동일한 종류의 인터페이스를 통해 중국 AI 모델을 사용할 수 있게 해준다고 했습니다. PayPal로 결제할 수 있고, 중국 전화번호도 필요 없습니다. 달러로 청구됩니다. 회의적이었지만, '밑져야 본전 아닌가?'라고 생각했습니다.

제 정신을 완전히 빼놓은 가격 문제

좋아요, 제가 계속해서 반복해서 보았던 숫자들을 나열해 보겠습니다. 여러 소스에서 이것들을 복사했는데 모두 일치했으므로, 정확하다고 꽤 확신합니다.

미국 모델의 경우, 100만 토큰 (tokens)당 지불하는 금액은 다음과 같습니다:

GPT-4o는 입력에 $2.50, 출력에 $10.00를 부과합니다.
Claude 3.5 Sonnet은 입력에 $3.00, 출력에 $15.00를 부과합니다.
Gemini 1.5 Pro는 입력에 $1.25, 출력에 $5.00를 부과합니다.
GPT-4o-mini는 입력에 $0.15, 출력에 $0.60를 부과합니다.

중국 모델의 경우:

DeepSeek V4 Flash는 입력에 $0.18, 출력에 $0.25를 부과합니다.
Qwen3-32B는 입력에 $0.18, 출력에 $0.28를 부과합니다.
GLM-5는 입력에 $0.73, 출력에 $1.92를 부과합니다.
Kimi K2.5는 입력에 $0.59, 출력에 $3.00를 부과합니다.

저는 이 숫자들을 너무 오랫동안 뚫어지게 쳐다보았습니다. 그러니까, 제가 잘못 읽고 있는 건가요? GPT-4o의 출력 비용은 DeepSeek V4 Flash보다 40배나 더 비쌉니다. 40. 배. 차이가 이렇게 클 줄은 전혀 몰랐습니다.

솔직히 말씀드리면 — 무언가가 40배나 더 저렴하다면, 저의 첫 반응은 "좋아, 이건 분명 쓰레기겠지"입니다. 부트캠프에서 저에게 주입시킨 것이 바로 그것입니다. 지불한 만큼 얻는 법입니다. 더 나은 것을 선택하기 위해 비싼 도구를 고르라는 것이죠.

하지만 그 후에 벤치마크 (Benchmark) 점수들을 보았습니다. 그리고 거기서부터 상황이 정말 이상해지기 시작했습니다.

제가 거의 이해하지 못했던 벤치마크 내용 (하지만 어쨌든 시도해 본 것)

솔직히 고백하자면: MMLU, HumanEval, 그리고 C-Eval이 무엇인지조차 찾아봐야 했습니다. 알고 보니 그것들은 AI 모델이 얼마나 똑똑한지 확인하기 위해 실시하는 테스트일 뿐이었습니다. 멋지네요. 이해했습니다.

일반 추론 (General Reasoning, 두뇌 테스트)

MMLU 스타일의 추론 벤치마크에서 점수는 다음과 같습니다:

GPT-4o는 88.7점을 기록하며 출력 100만 토큰당 $10.00가 소요됩니다.
Claude 3.5 Sonnet은 89.0점을 기록하며 출력 100만 토큰당 $15.00가 소요됩니다.
Kimi K2.5는 87.0점을 기록하며 출력 100만 토큰당 $3.00가 소요됩니다.
DeepSeek V4 Flash는 85.5점을 기록하며 출력 100만 토큰당 $0.25가 소요됩니다.
GLM-5는 86.0점을 기록하며 출력 100만 토큰당 $1.92가 소요됩니다.
Qwen3.5-397B는 87.5점을 기록하며 출력 100만 토큰당 $2.34가 소요됩니다.

잠시만요. 다시 한번 말씀드릴게요. DeepSeek V4 Flash는 추론 능력에서 GPT-4o보다 약 3점 뒤처지지만, 비용은 40배나 저렴합니다. 단 3점 차이입니다. 그게 전부입니다. 그것이 품질의 전체 차이입니다.

솔직히, 정말 충격적이었습니다.

코드 생성 (Code Generation) (부트캠프 테스트)

저는 개발자이기 때문에 이 부분이 가장 중요했습니다. HumanEval은 기본적으로 "이 모델이 작동하는 코드를 작성할 수 있는가?"를 테스트합니다. 제가 발견한 결과는 다음과 같습니다:

DeepSeek V4 Flash는 92.0점을 기록하며 100만 토큰당 $0.25입니다.
Qwen3-Coder-30B는 91.5점을 기록하며 100만 토큰당 $0.35입니다.
GPT-4o는 92.5점을 기록하며 100만 토큰당 $10.00입니다.
Claude 3.5 Sonnet은 93.0점을 기록하며 100만 토큰당 $15.00입니다.
DeepSeek Coder는 91.0점을 기록하며 100만 토큰당 $0.25입니다.

즉, DeepSeek V4 Flash는 코드에서 92.0점을 받았습니다. GPT-4o는 92.5점을 받았습니다. 단 0.5점 차이입니다. 그런데 가격은 40배나 차이가 납니다.

저는 이 내용을 여러 번 다시 읽어야 했습니다. 제 뇌는 계속해서 무언가 함정이 있을 것이라고 찾으려 했습니다. 하지만 함정은 나타나지 않았습니다.

중국어 (Chinese Language) (깜짝 테스트)

이 부분이 저를 가장 놀라게 했습니다. 중국어 이해 능력을 테스트하는 C-Eval 결과는 다음과 같습니다:

GLM-5는 91.0점을 기록하며 100만 토큰당 $1.92입니다.
Kimi K2.5는 90.5점을 기록하며 100만 토큰당 $3.00입니다.
Qwen3-32B는 89.0점을 기록하며 100만 토큰당 $0.28입니다.
GPT-4o는 88.5점을 기록하며 100만 토큰당 $10.00입니다.
DeepSeek V4 Flash는 88.0점을 기록하며 100만 토큰당 $0.25입니다.

여기서는 미국 모델이 꼴찌를 했습니다. GLM-5가 승자입니다. 저는 백만 년이 지나도 이런 결과가 나올 줄은 꿈에도 몰랐을 것입니다.

이것이 왜 상식적이지 않은가 (짜증 나는 부분)

좋습니다, 그렇다면 중국 AI가 이렇게 뛰어나고 저렴한데, 왜 모두가 사용하지 않는 걸까요? 제가 이 질문을 입 밖으로 내뱉었을 때, Discord에 있는 한 친구는 마치 제가 다른 행성에서 온 사람인 양 저를 쳐다보았습니다.

문제는 이렇습니다. 거대한 접근성 문제가 존재합니다.

DeepSeek, Kimi, Qwen 또는 GLM을 직접 사용하려면 보통 다음이 필요합니다:

가입을 위한 중국 전화번호 (저도 없고, 여러분도 아마 없을 것입니다)
결제를 위한 WeChat Pay 또는 Alipay (다시 말하지만, 중국 외부에 있는 대부분의 사람들에게는 불가능한 일입니다)
대부분 중국어로 되어 있는 문서 (Documentation)
때로는 이상한 지리적 제한 (geo-restrictions)을 해결해야 함

마치 마을 건너편에 무료 뷔페가 있다는 말을 들었는데, 차도 없고 버스도 그곳으로 가지 않으며, 메뉴판은 읽을 수 없는 언어로 되어 있는 것과 같습니다. 기본적으로 그런 상황입니다.

이것이 실제 장벽이었다는 사실을 전혀 몰랐습니다. 저는 품질의 문제라고 생각했습니다. 품질의 문제가 아니었습니다.

Global API: 내가 실제로 접근한 방법

이 부분은 제가 개인적으로 그 모든 문제들을 어떻게 해결했는지 말씀드리는 대목입니다. Global API는 계속해서 들려오는 이름이었기에, 저도 한번 시도해 보았습니다. 그들은 기본적으로 미국 모델과 중국 모델 모두에 작동하며, OpenAI 호환 (OpenAI-compatible) 형식을 갖춘 하나의 엔드포인트 (endpoint)를 제공합니다.

마지막 부분이 매우 중요합니다. 부트캠프(bootcamp)에서 우리 모두는 OpenAI API를 호출하는 법을 배웠습니다. 따라서 무언가가 "OpenAI 호환 (OpenAI-compatible)"이라고 한다면, 이는 제가 새로운 시스템을 배울 필요가 없다는 것을 의미합니다. 코드는 동일하며, 단지 다른 URL을 가리킬 뿐입니다.

이메일로 가입합니다. PayPal이나 일반 신용카드로 결제합니다. 달러로 청구됩니다. 문서 (docs)는 영어로 되어 있습니다. 오하이오든 오만(Oman)이든 어디에 있든 그냥 작동합니다.

이것이 저에게 얼마나 많은 변화를 가져다주었는지 아무리 강조해도 지나치지 않습니다.

내가 진행한 일대일 대결 (Head-to-Head Battles)

저는 토요일 내내 거의 모든 시간을 병렬 비교 (side-by-side comparisons)를 하는 데 보냈습니다. 제가 발견한 결과는 다음과 같습니다.

DeepSeek V4 Flash vs GPT-4o

출력 가격 (output pricing) 측면에서, DeepSeek V4 Flash는 100만 토큰당 0.25달러이며, GPT-4o는 100만 토큰당 10.00달러입니다. 이는 40배의 차이입니다.

품질 측면에서는, 무엇을 하느냐에 따라 두 모델 모두 4점 또는 5점을 주고 싶습니다. GPT-4o는 일반적인 추론 (reasoning) 능력이 약간 더 뛰어나며 비전 (vision) 기능(즉, 이미지를 보낼 수 있음)을 갖추고 있습니다. DeepSeek V4 Flash는 더 빠르며 — 초당 50 토큰 대비 약 60 토큰 — 코드 (code) 능력은 대등합니다.

가장 큰 차이점은 무엇일까요? GPT-4o는 이미지를 처리할 수 있습니다. DeepSeek V4 Flash는 할 수 없습니다 (적어도 이 버전에서는). 비전 기능이 필요하다면 여전히 GPT-4o가 승리합니다. 필요하지 않다면, V4 Flash가 명백한 선택입니다.

Qwen3-32B vs GPT-4o-mini

이 비교는 차이가 거의 없지도 않았습니다. Qwen3-32B는 출력 토큰 100만 개당 $0.28인 반면, GPT-4o-mini는 $0.60입니다. Qwen3는 가격 면에서 승리하며(2.1배 더 저렴함), 일반적인 품질, 코드, 그리고 확실히 중국어 측면에서도 GPT-4o-mini를 압도합니다. 저는 GPT-4o-mini가 앞서는 카테고리를 단 하나도 찾을 수 없었습니다. 만약 당신이 2026년에 GPT-4o-mini를 사용하고 있다면, 당신은 돈을 낭비하고 있는 것입니다.

Kimi K2.5 vs Claude 3.5 Sonnet

Kimi K2.5는 출력 토큰 100만 개당 $3.00이며, Claude 3.5 Sonnet은 $15.00입니다. 이는 5배의 가격 차이입니다. 추론 (Reasoning) 능력에서는 기본적으로 동등하며, 두 모델 모두 별 5개를 받을 자격이 있습니다. 중국어 측면에서는 Kimi가 압도적으로 승리합니다 (당연히 그래야 하니까요). Claude는 글쓰기 스타일 작업에 뛰어나지만, 비용 최적화를 고려한다면 Kimi가 정답입니다.

내 베이커리 프로젝트의 실제 코드

이것이 실제 코드에서 어떻게 보이는지 보여드리겠습니다. 제 부트캠프 친구들이 항상 물어보는 부분이 바로 이 부분이기 때문입니다. 기본 URL(Base URL)은 global-apis.com/v1이므로, URL과 모델 이름 외에는 아무것도 변경할 필요가 없었습니다.

다음은 제 베이커리 챗봇을 GPT-4o에서 DeepSeek V4 Flash로 전환하는 방법입니다:

python
from openai import OpenAI
...

주말 내내 중국 AI 모델들을 GPT-4o와 비교해 보았습니다 — 정말 충격적이었습니다

요약

핵심 포인트