DeepSeek와 ERNIE 4.5를 일주일간 테스트하며 발견한 것들

3개월 전 코딩 부트캠프(coding bootcamp)를 졸업했을 때, 나는 AI가 어떤 모습인지 알고 있다고 생각했습니다. OpenAI Playground를 사용해 보기도 했고, Python 코드 조각들을 몇 번 복사해서 붙여넣기도 했습니다. 나는 모든 거대 모델(big models)들이 그저 서로 다른 브랜드 라벨을 달고 있는 거의 비슷한 것들이라고 생각했습니다.

그러다 검색 순위(search-ranking) 기능을 출시하려는 작은 스타트업에 채용되었고, 약 48시간 만에 AI 가격 책정에 대한 나의 모든 이해가 뒤집혔습니다. 매니저는 내 책상에 "DeepSeek Vs ERNIE 4.5 research"라는 제목의 Notion 문서를 던져주며 말했습니다. "어떤 것을 사용해야 할지 알아내 봐."

독자 여러분, 나는 내가 무엇에 뛰어들고 있는지 전혀 알지 못했습니다.

내가 얼마나 과다 지불하고 있었는지 깨달은 순간

하마터면 속을 뻔했습니다. 솔직히 말해서요. 신용카드 결제 양식을 절반쯤 열어둔 상태였습니다.

그러다 184개의 서로 다른 AI 모델을 한곳에 모아놓은 Global API를 우연히 발견했습니다. 그곳의 가격은 100만 토큰(tokens)당 $0.01에서 $3.50까지 다양했습니다. 나는 그런 가격 범위가 존재하는지조차 몰랐습니다. 모든 모델이 대략 GPT-4o와 비슷한 비용이 들 것이라고 생각했습니다. 단지 다른 모델을 선택하는 것만으로 40%에서 65% 사이의 비용을 절감할 수 있다는 사실은 말 그대로 나를 경악하게 만들었습니다.

그래서 나는 깊이 파고들기 시작했습니다. 그리고 내가 배운 모든 것을 여러분께 공유하고자 합니다. 솔직히 누군가가 한 달 전에 나에게 이것을 설명해 주었더라면 좋았을 것이기 때문입니다.

내가 실제로 비교한 모델들

상사는 내가 순위 산정(ranking) 작업에 집중하기를 원했기에, 나는 블로그 포스트와 Reddit 스레드에서 계속 언급되는 5가지 모델로 목록을 좁혔습니다:

DeepSeek V4 Flash — 입력(input) $0.27 / 출력(output) $1.10, 128K 컨텍스트(context)
DeepSeek V4 Pro — 입력 $0.55 / 출력 $2.20, 200K 컨텍스트
Qwen3-32B — 입력 $0.30 / 출력 $1.20, 32K 컨텍스트
GLM-4 Plus — 입력 $0.20 / 출력 $0.80, 128K 컨텍스트
GPT-4o — 입력 $2.50 / 출력 $10.00, 128K 컨텍스트

여기서 잠시 멈추고 싶습니다. 왜냐하면 이 부분이 제가 정말 입을 다물지 못했던 지점이기 때문입니다. GPT-4o의 출력 가격을 보세요. 100만 토큰당 $10.00입니다. 이제 GLM-4 Plus를 보세요. $0.80입니다. 오타가 아닙니다. 우리는 지금 실제 돈을 아끼는 것에 대해 이야기하고 있습니다. 당신의 사이드 프로젝트가 두 번째 달까지 살아남을지, 아니면 결제 대시보드 속에서 조용히 사라질지를 결정짓는 그런 돈 말입니다.

Global API가 내 삶을 어떻게 편하게 만들었나

부트캠프에서는 아무도 말해주지 않는 사실이 있습니다. 모든 AI 제공업체는 자신만의 SDK, 자신만의 인증 (auth) 특이점, 자신만의 이상한 에러 코드를 가지고 있다는 점입니다. 이번 비교를 위해 여러 모델을 테스트하려고 했을 때, 저는 다섯 개의 서로 다른 통합 레이어 (integration layers)를 작성해야 할 것이라고 생각했습니다. 여기에는 OpenAI가 있고, 저기에는 Anthropic 스타일의 커스텀 방식이 있으며, 아마 오픈 소스 모델 중 하나를 위해서는 불안정한 curl 요청을 사용해야 했을 것입니다.

그러다 Global API가 통합 SDK (unified SDK)를 제공한다는 사실을 알게 되었습니다. 하나의 베이스 URL (base URL), 하나의 API 키, 그리고 184개의 모델. 이것이 가능하다는 사실에 저는 충격을 받았습니다. 저는 AI 생태계가 영원히 파편화되어 있을 것이라고 가정해 왔었습니다.

설정하는 데 10분도 채 걸리지 않았습니다. 과장이 아닙니다. "패키지를 설치해 보자"에서 "DeepSeek V4 Flash로부터 방금 응답을 받았다"까지 아마 제 점심시간 정도의 시간이 걸렸을 것입니다.

나의 첫 번째 실제 코드 예시

다음은 제가 비교를 위해 실제로 사용한 코드입니다. 제가 학습할 때 모든 튜토리얼은 제가 이미 모든 것을 알고 있다고 가정했기에, 제가 발견했으면 좋았을 법한 내용을 작성하여 포함했습니다.

import openai
import os
import time
...

global-apis.com/v1 베이스 URL (base URL)이 마법의 한 줄입니다. 이것을 교체하고 모델 이름을 바꾸기만 하면, 나머지 모든 것은 평소 OpenAI SDK가 작동하는 방식과 동일하게 작동합니다. 이것이 데모가 아니라 실제라는 사실을 계속 스스로에게 상기시켜야 했습니다.

벤치마크 (Benchmarks)가 실제로 보여준 것

저는 다양한 프롬프트(prompts)를 통해 이 작은 테스트 스크립트를 약 50번 정도 실행했습니다. 저는 특히 제 팀에 필요했던 랭킹 품질 (ranking quality)을 중점적으로 테스트했습니다.

저를 놀라게 한 핵심 수치는 다음과 같습니다. 이 모델들의 평균 벤치마크 점수는 84.6%에 달했습니다. 평균 지연 시간 (latency)은 1.2초였으며, 처리량 (throughput)은 초당 약 320 토큰이었습니다.

솔직히 저는 GPT-4o가 다른 모든 모델을 압도할 것이라고 예상했습니다. 부트캠프의 모든 이야기가 그렇게 암시했으니까요. 하지만 DeepSeek V4 Pro와 GLM-4 Plus는 거의 동일한 랭킹 품질 (ranking quality)을 보여주었으며, 훨씬 적은 비용으로 이를 수행하고 있었습니다.

제 결정을 확정 지은 계산식은 다음과 같습니다:

대규모 환경에서의 GPT-4o: 100만 토큰당 입력 약 $2.50 + 출력 $10.00
대규모 환경에서의 DeepSeek V4 Flash: 100만 토큰당 입력 $0.27 + 출력 $1.10

랭킹 작업에 한 달에 약 5,000만 토큰을 처리하는 스타트업이라면, GPT-4o에서 DeepSeek V4 Flash로 전환함으로써 매달 약 $400에서 $500 정도를 절약할 수 있습니다. 이는 엔지니어 한 명의 커피 예산이거나, 더 중요하게는 운영을 한두 주 더 지속할 수 있게 해주는 런웨이 (runway)가 됩니다.

진행 과정에서 습득한 베스트 프랙티스 (Best Practices)

문서들을 파헤치고 포럼 게시글들을 읽는 동안, 저는 "똑똑한 팀들이 실제로 하는 일들"의 목록을 수집하기 시작했습니다. 이 중 그 어떤 것도 제 부트캠프 커리큘럼에는 없었습니다. 이 모든 것은 이러한 워크로드 (workloads)를 실제 운영 환경 (production)에서 실행하고 있는 사람들에게서 얻은 것입니다.

1. 공격적으로 캐싱 (Cache) 하세요

유사한 쿼리 뭉치에 대해 랭킹을 실행하고 있다면, 반복적인 히트 (hits)가 발생할 것입니다. 40%의 캐시 히트율 (cache hit rate)을 목표로 하세요. 그것은 기본적으로 공짜 돈과 같습니다. 캐싱된 모든 응답은 토큰 비용을 지불하지 않아도 되는 응답입니다.

2. 응답을 스트리밍 (Stream) 하세요

사용자에게 화려한 타자기 효과를 보여주지 않더라도, 응답을 스트리밍하면 체감 지연 시간 (perceived latency)을 줄일 수 있습니다. 사용자는 스피너 (spinner)를 멍하니 바라보는 대신 무언가 진행되고 있다고 느끼게 됩니다. Global API에서는 동일한 SDK를 사용하여 스트리밍이 즉시 작동했습니다.

3. 쉬운 작업에는 더 저렴한 모델을 사용하세요

이 부분은 제가 처음 들었을 때 정말 깜짝 놀랐던 내용입니다. 모든 쿼리에 가장 화려한 모델을 사용할 필요는 없습니다. 단순한 분류 (Classification), 기본적인 재구성 (Reformulation) 등은 더 저렴한 티어로 라우팅 (Routing)할 수 있으며, 품질 차이를 아무도 느끼지 못하는 사이에 비용을 약 50% 절감할 수 있습니다.

4. 비용뿐만 아니라 품질을 모니터링하세요

가장 저렴한 모델만 쫓다가는 결국 형편없는 결과물을 얻게 되기 쉽습니다. 사용자 만족도 점수를 추적하세요. 기준점 (Baseline)을 두고 A/B 테스트를 진행하세요. 5%의 비용 절감을 위해 10%의 품질을 포기하지 마세요.

5. 항상 폴백 (Fallback)을 마련해 두세요

속도 제한 (Rate limits)은 존재합니다. 서비스 중단 (Outages)도 발생합니다. 화요일 새벽 3시에 잘 작동하던 프롬프트가 수요일 오전 11시에는 429 에러를 던질 수도 있습니다. 우아한 성능 저하 (Graceful degradation)를 구축하세요. Global API를 사용하면 통합 코드 (Integration code)를 변경하지 않고도 모델 이름을 교체할 수 있어 이 작업이 매우 쉬워집니다.

제가 미리 알았더라면 좋았을 두 번째 코드 스니펫 (Code Snippet)

여기에 제가 실제 운영 환경 (Production)에서 사용하게 된, 폴백 체인 (Fallback chain)이 포함된 약간 더 발전된 패턴이 있습니다:

import openai
import os

...

이런 패턴은 3개월 전의 저였다면 알아내는 데 일주일은 걸렸을 것입니다. 이제는 고작 20줄 정도의 코드일 뿐이며, 그냥 잘 작동합니다.

다른 부트캠프 졸업생에게 해주고 싶은 말

만약 여러분이 한 달 전의 저와 같은 상태라면 — 눈을 크게 뜨고 약간 겁을 먹은 채, AI 세상이 접근할 수 없는 폐쇄적인 커뮤니티라고 확신하고 있다면 — 누군가 저에게 말해줬으면 좋았을 내용을 말씀드리겠습니다.

모든 것에 GPT-4o를 사용할 필요는 없습니다. 출력 토큰 (Output tokens) 100만 개당 10달러를 지불할 필요도 없습니다. 다섯 개의 서로 다른 제공업체 (Providers)에 접근하기 위해 다섯 개의 서로 다른 SDK를 배울 필요도 없습니다. 이 모든 과정은 마케팅 페이지에서 말하는 것보다 훨씬 더 접근하기 쉽습니다.

DeepSeek V4 Flash는 128K 컨텍스트 (Context)를 입력 $0.27, 출력 $1.10에 제공했습니다. DeepSeek V4 Pro는 200K 컨텍스트를 입력 $0.55, 출력 $2.20에 제공했습니다. 두 모델 모두 제 팀원들과 진행한 블라인드 테스트에서 GPT-4o와 진심으로 구별할 수 없는 품질 수준으로 저의 랭킹 워크로드 (Ranking workloads)를 수행했습니다. 그리고 두 모델 모두 비용 면에서는 아주 작은 부분만을 차지했습니다.

2026년 현재의 가격 환경은 정말이지 엄청납니다. Global API에 있는 184개 모델을 기준으로, 100만 토큰당 최저 0.01달러에서 최고 3.50달러에 이르는 가격대를 형성하고 있습니다. 저는 이런 정도의 격차가 존재하는지 전혀 몰랐습니다. 저는 AI 가격 책정이 항공권 가격처럼 — 다소 신비롭고 높은 수준에서 어느 정도 고정되어 있는 것이라고 생각했습니다.

하지만 그렇지 않습니다. 매우 경쟁적입니다. 만약 당신이 주말을 할애해 테스트할 의향이 있다면, 대부분의 사람들이 기본값으로 사용하는 설정보다 40~65% 더 저렴한 설정을 찾아낼 수 있습니다.

솔직한 결론

일주일간의 전체 테스트를 마친 후, 제가 내린 결론은 다음과 같습니다:

DeepSeek 모델은 랭킹 (Ranking) 및 분류 (Classification) 워크로드에 대한 저의 새로운 기본값입니다. 품질은 뒷받침되고, 가격은 적절하며, 속도는 일관적입니다.
플래그십 서구권 모델을 기본값으로 사용하는 것과 비교했을 때 40~65%의 비용 절감은 마케팅 수사가 아닌 실제 결과입니다.
**평균 지연 시간 (Latency) 1.2초 및 초당 320 토큰의 처리량 (Throughput)**은 대부분의 사용자 대상 기능에 충분히 빠른 속도입니다.
제가 테스트한 모델들의 **평균 벤치마크 점수 84.6%**는 품질에 대한 우려가 대체로 과장되었음을 의미합니다.
Global API의 통합 SDK를 통해 설정하는 데 10분 미만이 소요됩니다. — 이것이 우연이 아니라는 것을 확인하기 위해 두 번째 통합 작업을 수행하며 직접 시간을 측정했습니다.

궁금해서 직접 살펴보고 싶다면, Global API는 184개 모델을 모두 테스트해 볼 수 있도록 100개의 무료 크레딧을 제공합니다. 저도 그렇게 시작했으며, 어떤 것에도 약속(Commit)할 필요가 없었습니다. 말 그대로 그들의 사이트에 접속하여 curl 명령어나 위에 공유한 SDK 스니펫에 모델 이름을 붙여넣기만 하면, 터미널에서 실제 응답을 확인하기 시작할 수 있습니다.

저는