부트캠프 졸업생으로서 AI API 비용을 94% 절감한 방법

3주 전, 나는 내 사이드 프로젝트를 거의 포기할 뻔했다. 코드가 어려워서가 아니었다. 프롬프트 (Prompts)를 해결하지 못해서도 아니었다. 부트캠프를 마친 후 첫 아파트 월세보다 한 달 동안 API 호출에 쓴 비용이 더 많다는 신용카드 명세서를 보았기 때문이었다.

농담이 아니다. 하루에 약 200명의 사용자가 접속하는 챗봇 앱을 운영하고 있었는데, 누군가 후속 질문을 할 때마다 어떻게든 돈이 계속 새어나가고 있었다. 나는 AI API가 저렴하다고 생각했다. 그것들이 이렇게 빨리 예산을 망가뜨릴 수 있다는 사실은 전혀 몰랐다.

그래서 나는 깊이 파고들기 시작했다. 주말 내내 내가 찾을 수 있는 모든 API 제공업체를 비교하고, 문서를 읽고, 계정을 생성하고, 무료 크레딧을 소진하며 시간을 보냈다. 내가 발견한 사실은 솔직히 충격적이었다. 그리고 나는 이 내용을 여러분과 공유하고 싶다. 왜냐하면 여러분이 부트캠프 졸업생이거나 (혹은 솔직히 AI 관련 서비스를 만들기 시작한 누구라도), 직접 찾아보기 전까지는 이런 사실들이 당연하게 느껴지지 않기 때문이다.

내 머리가 멈춘 순간

부트캠프에서 아무도 말해주지 않는 사실이 있다. 홈페이지에 적힌 API 가격은 실제이지만, 어떤 모델을 선택하느냐에 따라 엄청난 차이가 발생한다는 것이다. 나는 모든 튜토리얼에서 사용하길래 GPT-4o를 사용하고 있었다. 그것이 안전한 기본값처럼 보였다. 강사들에게 효과가 있다면 나에게도 효과가 있을 것이라고 생각했다.

그다음 수치를 계산해 보았다. 1,000개의 입력 토큰 (Input tokens)과 500개의 출력 토큰 (Output tokens)을 사용하는 단 한 번의 대화에 GPT-4o는 약 0.5센트의 비용이 들었다. 하루에 수천 건의 대화가 일어난다고 곱해보지 않으면 그리 많아 보이지 않을 수도 있다. 나의 월간 청구 금액은 수백 달러를 향해 달려가고 있었고, 나는 아직 공개적으로 출시조차 하지 않은 상태였다.

나는 충격을 받았다. 모델 하나를 다른 것으로 바꾸는 것만으로 비용을 90% 이상 절감할 수 있다는 사실을 전혀 몰랐다. 나는 항상 더 저렴한 모델들은 성능이 형편없을 것이라고 가정했다. 알고 보니 그 가정은 2026년 현재 매우 시대에 뒤떨어진 생각이었다.

DeepSeek V4 Flash를 만나다

나의 모든 것을 바꿔놓은 모델은 DeepSeek V4 Flash라고 불리는 모델이다. 개발자 포럼과 Discord 서버에서 계속 언급되는 것을 보고 마침내 직접 테스트해 보았다. 그리고 솔직히 말하자면? 이 모델은 내가 가졌던 모든 기대를 완전히 압도했다.

내가 무엇을 말하는지 알 수 있도록 수치를 몇 가지 제시해 보겠다. 비교하는 과정에서 내가 찾아낸 통계치들이다:

지표 (Metric)	DeepSeek V4 Flash	GPT-4o
1M 토큰당 입력 가격 (Input price per 1M tokens)	$0.14	$2.50
...	...	...

다시 한번 읽어보라. DeepSeek V4 Flash의 100만 입력 토큰당 비용은 $0.14인 반면, GPT-4o는 $2.50이다. 입력 비용 측면에서 94% 더 저렴하다. 출력(Output) 측면에서는 $0.28 대 $10.00로, 97% 더 저렴하다. 97%라니.

품질 격차는 어떠할까? MMLU 점수 차이는 2.3%포인트이다. HumanEval은 2.6포인트 차이다. 내가 구축하고 있는 대부분의 것들(챗봇, 콘텐츠 도구, 요약기, RAG 앱)에 있어서 그 격차는 사용자들에게 보이지 않는다. 사용자들은 구분할 수 없다. 나는 내 프롬프트를 사용하여 블라인드 A/B 테스트를 진행했는데, 절반 정도는 답변을 문자 그대로 구분할 수 없었다.

내가 인지한 유일한 실제 트레이드오프(Tradeoff)는 최대 출력 토큰(Max output tokens)이다: GPT-4o의 16,384 토큰 대비 8,192 토큰이다. 만약 단 한 번의 호출로 방대한 문서를 생성해야 한다면 이것이 문제가 될 수 있다. 하지만 나의 챗봇에게는 단 한 번도 문제가 되지 않았다.

또 다른 멋진 점은? DeepSeek V4 Flash는 OpenAI와 호환(OpenAI-compatible)된다는 것이다. 이는 내가 이미 OpenAI API를 위해 작성한 코드가 거의 수정 없이 그대로 작동한다는 의미다. 베이스 URL(Base URL)만 교체하면 끝이다. 잠시 후에 그 코드를 보여주겠다.

하지만 잠깐, 어디서 구매하느냐도 중요하다

DeepSeek V4 Flash가 나의 해답이라는 것을 깨달은 후, 나는 또 다른 초보적인 실수를 저질렀다. 가격은 하나뿐이며 그냥 DeepSeek의 공식 사이트로 가면 될 것이라고 가정했다. 그러다 제공업체(Provider)들을 비교하기 시작했고, 그 주에 두 번째로 멘붕이 왔다.

정확히 같은 모델임에도 불구하고, 어디서 구매하느냐에 따라 가격이 완전히 달랐다. 내가 정리한 전체 비교표는 다음과 같다:

제공업체 (Provider)	1M당 출력 (Output per 1M)	1M당 입력 (Input per 1M)	마진 (Markup)	결제 (Payment)
Global API	$0.28	$0.14	0%	신용카드, 글로벌
...

애그리게이터 (Aggregators)들이 이렇게 공격적으로 마진을 붙이고 있을 줄은 전혀 몰랐다. OpenRouter는 정확히 같은 모델에 대해 공식 가격의 6배를 청구하고 있었다. 이건 편의 수수료가 아니라 강도질이나 다름없다. 내가 살펴본 다른 무작위 애그리게이터들은 훨씬 더 심해서, 7배 이상의 마진을 붙이고 있었다.

그리고 또 다른 함정이 하나 더 있었다. DeepSeek의 공식 사이트는 WeChat과 Alipay만 지원한다. 나는 둘 다 없다. 나는 미국에 기반을 둔 부트캠프 졸업생이다. 나는 그것들이 무엇인지조차 절반은 모른다. 따라서 새로운 결제 시스템을 통째로 구축하고 싶지 않은 한, 그 "공식" 가격은 나에게 사실상 이용 불가능한 가격이었다.

그때 Global API를 우연히 발견하게 되었다. 그리고 여기서부터 상황이 나에게 정말 유리하게 돌아가기 시작했다.

내가 결국 Global API를 선택한 이유

Global API는 DeepSeek의 공식 가격과 정확히 일치한다. 입력 토큰 100만 개당 $0.14, 출력 토큰 100만 개당 $0.28로, DeepSeek 자체 사이트와 동일하다. 마진이 전혀 없다.

하지만 내가 실제로 전환하게 만든 결정적인 이유는 따로 있다. Global API는 무언가를 출시하려는 개발자에게 중요한 여러 가지 기능들을 추가로 제공한다:

실제 국제 결제 지원. 신용카드, 체크카드, Visa, Mastercard, Amex를 PayPal을 통해 지원합니다. 중국 결제 앱의 말도 안 되는 방식과는 다릅니다.
사이트 전체가 영어로 제공됩니다. 문서(Documentation), 대시보드(Dashboard), 고객 지원(Support) 모두 영어입니다. 새벽 2시에 구글 번역기로 문서를 번역할 필요가 없습니다.
하나의 API 키로 100개 이상의 모델을 사용할 수 있습니다. 단일 엔드포인트(Endpoint)를 통해 DeepSeek, Qwen, Kimi, GLM, MiniMax, Hunyuan 및 훨씬 더 많은 모델을 사용할 수 있습니다. 이는 자격 증명(Credentials)을 번거롭게 관리할 필요 없이 다양한 모델로 A/B 테스트를 할 수 있음을 의미합니다.
크레딧(Credits)에 만료 기한이 없습니다. 이 점은 저에게 매우 컸습니다. 예전에는 사용하지 않은 크레딧이 사라지는 월간 초기화 방식이 정말 싫었습니다. Global API를 사용하면 예산이 있을 때 크레딧을 구매하고, 원할 때 언제든 사용할 수 있습니다.
무료 티어(Free tier). 신용카드 등록 없이도 어떤 모델이든 테스트할 수 있는 100개의 무료 크레딧을 제공합니다. 결제하기 전에 약 6개의 서로 다른 모델을 테스트해 보았습니다.
대시보드에서 실시간 사용량과 비용을 보여줍니다. 예상치 못한 청구서 때문에 피해를 본 적이 있는 사람으로서, 이 기능은 게임 체인저(Game-changer)였습니다.

실제 코드가 어떻게 생겼는지 보여드리겠습니다. 이전에 OpenAI의 Python 라이브러리를 사용해 본 적이 있다면, 매우 익숙하게 느껴질 것입니다:

from openai import OpenAI

client = OpenAI(
...

그게 전부입니다. OpenAI 클라이언트를 그대로 대체할 수 있습니다. 유일한 차이점은 베이스 URL(Base URL)과 모델 이름뿐입니다. 그 외 모든 것(메시지 형식(Messages format), 스트리밍(Streaming), 함수 호출(Function calling) 등)은 여러분이 익숙한 방식 그대로 작동합니다.

이것이 실제로 절약해 주는 것

추상적인 퍼센트(%)는 항상 와닿지 않을 수 있으므로, 실제 숫자로 말씀드리겠습니다. 제 사용 사례에 맞춰 간단한 계산기를 만들어 보았습니다: 대화당 입력 토큰(Input tokens) 1,000개와 출력 토큰(Output tokens) 500개(제 챗봇의 평균치와 비슷합니다).

제공업체 (Provider)	요청당 비용	월 10,000회 요청 시	월 100,000회 요청 시
Global API	$0.00028	$2.80	$28.00
...

한 달에 10,000번의 대화를 나눌 때, Global API 비용은 $2.80입니다. OpenRouter에서 동일한 부하를 처리할 경우 비용은 $17.00입니다. 정확히 동일한 기반 모델을 사용함에도 불구하고 가격이 6배 이상 비쌉니다.

한 달에 100,000건의 대화(제 앱이 성장함에 따라 도달하게 될 지점)를 처리할 경우, 비용 차이는 $28.00 대 $170.00입니다. 만약 제가 수백만 건의 요청 규모로 확장한다면, 연간 발생하는 이 차액으로 중고차 한 대를 살 수도 있을 것입니다. 가격 격차가 그야말로 터무니없습니다.

그리고 기억하세요, 이 수치들은 동일한 DeepSeek V4 Flash 모델을 기준으로 한 것입니다. 품질 차이도 없고, 기능 차이도 없습니다. 그저 제공업체(provider)마다 터무니없이 다른 마진(markup)을 부과하고 있을 뿐입니다.

몇 주간 사용해 본 후의 솔직한 견해

저는 약 3주 동안 제 챗봇을 Global API를 통해 운영해 왔습니다. 제가 느낀 바로는 다운타임(downtime)은 전혀 없었습니다. 응답 시간(response times)은 GPT-4o를 사용할 때와 비슷하거나 때로는 더 빠르게 느껴집니다. 제 사용 사례(use case)에 있어 응답 품질은 일관되게 좋습니다.

정말 마음에 드는 점 하나는 모델의 다양성(model diversity)입니다. DeepSeek V4 Flash가 특정 작업에 완벽하게 맞지 않을 때, 저는 동일한 API 키, 동일한 엔드포인트(endpoint), 동일한 코드 구조를 통해 Qwen과 Kimi를 테스트했습니다. 단지 모델 이름만 바꿨을 뿐입니다. 이것은 제가 놓치고 있었던 수준의 유연성입니다.

또한 드디어 예측 가능한 예산 수립이 가능하다는 점도 좋습니다. 크레딧을 충전하고, 대시보드를 확인하면 제가 사용할 수 있는 자금(runway)이 정확히 얼마나 남았는지 알 수 있습니다. 갑작스러운 청구서도, 월말의 패닉도 없습니다.

다른 부트캠프 졸업생에게 해주고 싶은 말

이제 막 AI 기반 앱을 만들기 시작했다면, 6개월 전 누군가 저에게 말해줬으면 좋았을 것들을 알려드리겠습니다:

모든 튜토리얼이 사용한다고 해서 무조건 GPT-4o를 기본값으로 설정하지 마세요. 2026년의 저렴한 모델들은 놀라울 정도로 유능합니다.
모델도 중요하지만, 제공업체(provider)도 그만큼 중요합니다. 동일한 모델임에도 6배의 가격 차이가 발생하는 것은 실제 상황입니다.
OpenAI 호환 API(OpenAI-compatible APIs)를 찾으세요. 기존 코드를 최소한의 변경만으로 사용할 수 있습니다.