DeepSeek로 더 빨리 전환했더라면 좋았을 텐데 — 상세 분석 - Insights | Molayo

솔직히 말씀드릴게요. 저는 2024년과 2025년의 대부분을 마치 내일이 없는 것처럼 OpenAI API에 엄청난 돈을 쏟아부으며 보냈습니다. 청구서를 확인할 때마다 저는 그냥... 받아들였습니다.

입력 토큰 (Input tokens): 1M(100만) 토큰당 $0.14
출력 토큰 (Output tokens): 1M(100만) 토큰당 $0.28
컨텍스트 윈도우 (Context window): 128K 토큰 (GPT-4o와 동일)
최대 출력 (Max output): 8,192 토큰 (GPT-4o는 16,384 토큰까지 지원하지만, 저는 그 정도로 많이 필요한 경우가 거의 없습니다)
속도 (Speed): 초당 약 85 토큰 (GPT-4o의 약 72 토큰보다 빠름)

8K 최대 출력 제한이 처음에는 발목을 잡았지만, 실제로 사용해 보니 거의 문제가 되지 않았습니다. 더 긴 출력이 필요한 경우에는 언제든지 청크 (chunk)로 나누거나 다른 모델을 사용하면 됩니다.

R1 — 모델이 실제로 사고(Think)해야 할 때

때로는 LLM(대규모 언어 모델)에 문제를 던졌을 때, 모델이 그냥... 아주 자신 있게 틀린 답을 내놓을 때가 있습니다. 무슨 뜻인지 아실 겁니다. R1은 응답하기 전에 내부적으로 사고 사슬 (chain-of-thought)을 수행하는 DeepSeek의 추론 (reasoning) 모델입니다.

입력 토큰 (Input tokens): 1M(100만) 토큰당 $0.55
출력 토큰 (Output tokens): 1M(100만) 토큰당 $2.19
컨텍스트 윈도우 (Context window): 128K 토큰
최적 용도 (Best for): 수학, 논리, 까다로운 코드 디버깅 (debugging), 복잡한 계획 수립

출력 토큰 1M당 $2.19라는 가격은, 출력 1M당 $60를 요구하는 OpenAI의 o1보다 훨씬 저렴합니다. 즉, R1은 출력 비용 면에서 o1보다 대략 27배나 저렴합니다. 그리고 솔직히 말해서, 제 대부분의 추론 작업에서 R1은 대등한 성능을 보여줍니다. 최첨단 연구 (frontier research) 같은 일을 하는 게 아니라면 o1의 가격을 지불할 필요가 없습니다.

V3.2 — 중간 지점

그 사이를 메워주는 V3.2도 있습니다:

입력 토큰 (Input tokens): 1M(100만) 토큰당 $0.27
출력 토큰 (Output tokens): 1M(100만) 토큰당 $1.10

이 모델은 V4 Flash보다 약 3.9배 더 비쌉니다. 저는 더 강력한 추론이 필요하지만 완전한 R1 모드까지는 필요하지 않을 때 가끔 이 모델을 사용합니다. 일종의 "V4 Flash로는 조금 부족한데" 싶을 때 사용하는 백업 모델입니다.

실제 비용이 어떻게 차이 나는가

체감이 잘 되도록 표로 정리해 보겠습니다. 1M 토큰당 지불하게 되는 출력 비용은 다음과 같습니다:

모델	입력 $/1M	출력 $/1M	상대적 비용
DeepSeek V4 Flash	$0.14	$0.28	1x (기준)
...

마지막 행을 다시 한번 읽어보세요. OpenAI o1은 출력 토큰 기준으로 V4 Flash보다 214배 더 비쌉니다. 정말이지... 말도 안 되는 수준입니다. 그들의 가장 비싼 모델인 R1조차 V4 Flash 가격의 7.8배에 불과하며, 토큰당 비용 기준으로 보면 GPT-4o보다 여전히 저렴합니다. 정말 놀라운 일입니다.

나의 실제 수치 (내가 소리를 지르게 만든 부분)

좋습니다, 그럼 실제 금액에 대해 이야기해 보겠습니다. 저는 비용 소모율 (burn rate)에 다소 집착하는 편이라 모든 것을 기록합니다. 제 SaaS 챗봇을 DeepSeek으로 전환하기 전과 후의 비용 차이는 다음과 같습니다.

제 챗봇은 한 달에 약 30M 입력 토큰과 10M 출력 토큰을 사용합니다. 꽤 적당한 규모죠.

제공업체	월간	연간	3년 총합
OpenAI GPT-4o	$175.00	$2,100	$6,300
...

결과적으로 저는 월 $175를 지출하던 것에서 월 $7를 지출하는 것으로 바뀌었습니다. 연간 $2,016를 절약한 셈입니다. 3년 동안이라면요? 제 사용 사례에서 말 그대로 동일한 품질의 결과물을 얻으면서도... $6,048를 쓰지 않게 된 것입니다.

그리고 이것은 단 하나의 앱에 대한 이야기일 뿐입니다. 저는 네 개의 다른 사이드 프로젝트도 운영하고 있습니다. 이 모든 프로젝트를 전환하자, 제 AI 청구서는 기본적으로 "의미 있는 지출"에서 "Stripe 대시보드의 반올림 오차" 수준으로 바뀌었습니다.

만약 제가 더 큰 규모, 예를 들어 문서 처리 파이프라인을 위해 월 100M 입력 + 50M 출력 토큰을 사용했다면, 그 격차는 훨씬 더 터무니없어졌을 것입니다. 한 달에 수천 달러의 차이가 발생하는 셈이니까요.

실제로 어디서 구매해야 하는가 (이 부분이 중요합니다)

자, 여기서 주의할 점이 있습니다. DeepSeek의 공식 API가 가장 저렴한 원가(raw pricing)를 제공하지만, 결제 수단으로 WeChat과 Alipay만 허용합니다. 이는 저처럼 미국이나 유럽에 거주하는 사람들에게는... 그리 좋은 상황이 아닙니다.

그래서 저는 대안을 찾아야 했습니다. 제가 찾아낸 결과는 다음과 같습니다:

플랫폼 (Platform)	V4 Flash 출력 $/1M	결제 방식 (Payment)	보너스 모델 (Bonus Models)	최적 용도 (Best For)
Global API	$0.28	Visa/MC/Amex	100개 이상의 모델	글로벌 개발자
...

Global API의 가격은 공식 가격과 정확히 일치하며, 일반 신용카드로 결제할 수 있습니다. 그것이 저에게 결정적인 요인이었습니다. 게다가 동일한 API 키를 통해 Qwen, Kimi, GLM 등 100개 이상의 다른 모델들을 사용할 수 있습니다. 따라서 특정 작업을 위해 다른 모델로 교체하고 싶다면, 코드에서 모델 이름만 바꾸면 끝납니다.

OpenRouter도 괜찮지만, V4 Flash에 대해 6배의 마진(markup)을 지불해야 하므로 본래의 목적이 퇴색되는 면이 있습니다. SiliconFlow은 아시아 태평양(APAC) 지역에 거주하며 Alipay(알리페이)가 설정되어 있다면 훌륭한 선택입니다.

코드 (복사해서 바로 사용 가능)

제가 가장 좋아하는 점은 바로 이것입니다 — API가 OpenAI와 호환(OpenAI-compatible)된다는 것입니다. 따라서 기존에 OpenAI 코드를 사용하고 있다면, 말 그대로 단 두 줄만 바꾸면 됩니다. Global API를 기본 URL(base URL)로 사용하는 기본적인 예시는 다음과 같습니다:

import os
from openai import OpenAI

...

그게 전부입니다. 이전에 OpenAI SDK를 사용해 본 적이 있다면, 이 코드가 고통스러울 정도로 익숙하게 느껴질 것입니다. 실제로 그렇기 때문입니다. 유일한 차이점은 OpenAI URL 대신 base_url="https://global-apis.com/v1"을 사용하는 것입니다.

또한, 새로운 기능을 추가할 때마다 매번 암산하는 것이 지겨워져서 저를 위한 작은 비용 계산기(cost calculator)를 만들었는데, 여러분과 공유하고 싶었습니다:

def estimate_cost(input_tokens, output_tokens, model="deepseek-v4-flash"):
    """DeepSeek API 비용을 USD로 추정합니다."""
    pricing = {
...

저는 이것을 utils 파일에 넣어두고, 앱에 토큰 소모가 많은 기능을 추가하기 직전마다 사용합니다. 이를 통해 배포하기 전에 비용 측면의 영향(cost implications)을 생각하게 됩니다.

DeepSeek를 사용하지 말아야 할 때 (네, 그런 경우도 있습니다)

DeepSeek가 모든 상황에 완벽하다고 거짓말하지는 않겠습니다. 여전히 다른 것을 선택할 만한 몇 가지 시나리오가 있습니다:

1. 대량의 출력 토큰 (output tokens)이 필요한 경우. V4 Flash는 8,192 토큰으로 제한됩니다. 만약 단일 호출(single call)로 긴 형태의 생성(long-form generation)을 수행해야 한다면, GPT-4o의 최대 16,384 출력 토큰은 진정으로 유용합니다. 그렇긴 하지만, 저는 보통 그냥 청킹(chunking)을 합니다.

2. 200K 컨텍스트 (context)가 필요한 경우. OpenAI o1은 200K 컨텍스트 창을 가집니다. R1은 128K입니다. 일부 긴 문서 분석 작업에서는 그 추가적인 컨텍스트가 중요합니다.

3. 제품이 엔터프라이즈급이며 SLA (Service Level Agreement)가 필요한 경우. DeepSeek의 공식 API는 엔터프라이즈 계약을 제대로 지원하지 않습니다. 이를 위해서는 Global API와 같은 플랫폼을 거쳐야 합니다.

4. 사용자들이 "이거 GPT 모델 맞죠?"라고 말할 만한 무언가를 만들고 있는 경우. 솔직히 말해서, 대부분의 소비자용 앱(consumer apps)에서는 그 차이가 보이지 않습니다. 하지만 일부 브랜드에게는 OpenAI를 사용하는 것이 일종의 상징성(cachet)을 가집니다. (개인적으로 이것은 35배나 더 많은 비용을 지불할 이상한 이유라고 생각하지만, 이해는 합니다.)

인디 해커(indie hackers)와 소규모 팀들이 구축하고 있는 것의 약 95%에 대해서는, DeepSeek V4 Flash만으로도 충분하고도 남습니다. 제가 만든 챗봇, 콘텐츠 도구, 또는 데이터 처리 파이프라인(data processing pipelines)에서 의미 있는 품질 차이를 발견하지 못했습니다.

나의 실제 권장 사항

이제 막 시작하는 단계이고 비용이 중요하다면 (솔직히 말해서 비용은 항상 중요합니다), V4 Flash로 시작하세요. 앱 전체를 그것을 중심으로 구축하세요. 진정으로 추론 (reasoning)이 필요한 특정 기능에 대해서만 R1으로 전환하세요. 엄청난 돈을 아낄 수 있으며 사용자들은 그 차이를 느끼지 못할 것입니다.

플랫폼의 경우, 저는 Global API를 사용하고 있습니다. 왜냐하면 공식 DeepSeek 가격을 제공하고, 제 신용카드를 받아주며, 동일한 키를 통해 100개 이상의 다른 모델에 접근할 수 있게 해주기 때문입니다. 그것이 제가 필요로 하는 거의 전부입니다. 확인해보고 싶다면, 여기 링크가 있습니다: global-apis.com.

솔직히, 저는 이 전환을 6개월만 더 일찍 했더라면 좋았을 것이라고 생각합니다. 필요하지도 않은 GPT-4o 호출에 낭비한 돈의 액수는 진심으로 창피할 정도입니다. 하지만 뭐, 교훈을 얻었습니다. 이제 저는 압니다. 그리고 이제 당신도 압니다.

그것으로 멋진 것을 만들어 보세요. 그리고 만약 LLM 비용 최적화(cost optimization)에 대해 덕질(nerd out)하고 싶다면, 연락 주세요. 저는 이 주제에 대해 하루 종일도 이야기할 수 있습니다.

DeepSeek로 더 빨리 전환했더라면 좋았을 텐데 — 상세 분석

요약

핵심 포인트