AI API 비용을 97.5% 절감한 방법: 스타트업 CTO의 현장 기록

3개월 전, 저는 주요 AI 제공업체의 월간 인보이스(invoice)를 열어보고 마시던 콜드 브루를 뿜을 뻔했습니다. 우리는 6주 만에 베타 사용자 200명에서 11,000명으로 규모를 키웠고, 토큰(token) 비용 또한 그에 맞춰 급증했습니다. 청구 금액은 5자리 수(만 달러 단위)에 육박하고 있었습니다. 그때부터 저는 AI 인프라를 다른 모든 프로덕션 의존성(production dependency)과 동일하게 다루기 시작했습니다. 즉, 무자비한 비용 규율, 벤더 다각화(vendor diversification), 그리고 모든 상황에 대한 폴백 플랜(fallback plan)을 적용했습니다.

이 포스트는 그 여정의 무질서하고 솔직한 버전입니다. 무엇이 효과적이었는지, 무엇을 다르게 했을지, 그리고 왜 다른 창업자에게 "그냥 제공업체와 직접 연결하세요"라는 말을 절대 추천하지 않는지에 대해 다룹니다.

경종 (The Wake-Up Call)

우리는 금요일에 런칭했습니다. 월요일 아침이 되자 1,400명의 가입자가 생겼습니다. 멋진 일이죠? 하지만 문제는 우리의 전체 백엔드(backend)가 단일 제공업체의 API를 통해 라우팅되고 있었다는 점입니다. 데모를 가장 빠르게 보여줄 수 있는 방법이었기에 주말 동안 급하게 연결해 두었던 것이었습니다.

빠른 반복(fast iteration)은 중요합니다. 저도 이해합니다. 저 또한 덕테이프와 기도만으로 MVP를 출시해 본 적이 있습니다. 하지만 "빠른 반복"과 "재작성 없이는 풀 수 없는 기술 부채(technical debt)를 쌓는 것" 사이에는 차이가 있습니다. 월간 비용이 5자리 수에 달할 것이라는 사실을 깨달았을 때, 우리는 이미 단일 모델의 특이점들—속도 제한(rate limits), 다운타임 패턴, 가격 변동 등—에 우리 자신을 종속시켜 버린 상태였습니다.

만약 과거로 돌아갈 수 있다면, 과거의 저에게 이렇게 말해주고 싶습니다. 첫 10,000명의 사용자를 확보하는 시기가 바로 아키텍처(architectural) 결정이 조용히 복리로 쌓이는 시기라고 말이죠. 모든 지름길은 마이그레이션(migration)이 됩니다. 모든 "나중에 고치자"는 말은 한 분기 내내 이어지는 리팩터링(refactor)이 됩니다.

그때부터 저는 API 애그리게이터(API aggregators)를 진지하게 검토하기 시작했습니다.

스타트업에게 직접 연결하는 방식이 거의 항상 틀린 이유

스타트업을 운영해 본 적 없는 시니어 엔지니어들에게서 이런 조언을 끊임없이 듣습니다: "그냥 제공업체를 직접 사용하세요. 그게 더 저렴하고, 완전한 제어권을 가질 수 있습니다."

아니요, 그렇지 않습니다. 그 조언이 스타트업 단계에서 놓치고 있는 점은 다음과 같습니다:

벤더 종속 (Vendor lock-in)은 아직 눈에 보이지 않는 비용입니다. 특정 제공업체의 API를 기반으로 구축하면, 해당 제공업체의 모든 특이사항(quirk)이 프롬프트 (prompt), 재시도 로직 (retry logic), 에러 처리 (error handling), 그리고 비용 추정치에 그대로 녹아들게 됩니다. 제공업체를 바꾸고 싶으신가요? 그것은 당신에게 허락되지 않은 급박한 작업 (sprint)이 될 것입니다. 그리고 제공업체가 가격을 인상할 때 (반드시 그렇게 될 것입니다), 당신은 그 타격을 그대로 감수하거나 긴급 마이그레이션 (emergency migration)을 수행해야 합니다. 규모가 커졌을 때 그 어느 쪽도 즐거운 일은 아닙니다.

결제 마찰 (Payment friction)은 모멘텀을 죽입니다. 제가 테스트하고 싶었던 제공업체의 절반은 WeChat이나 Alipay를 요구했습니다. 저는 미국에 있습니다. 저는 중국 전화번호가 없으며, 모델 하나를 평가하기 위해 중국 전화번호를 만들 생각도 없습니다. 추가적인 가입 단계가 하나씩 늘어날 때마다, 트라이얼 (trial)을 끝까지 마치지 않는 개발자의 비율이 30%씩 늘어납니다.

테스트가 느립니다. 만약 제가 DeepSeek V4 Flash를 Qwen3-32B 및 최신 Claude 모델과 비교하고 싶다면, 세 개의 계정을 등록하고, 세 개의 결제 관계를 관리하며, 세 개의 인보이스 (invoice)를 대조하고 싶지 않습니다. 저는 단 하나의 키 (key)를 원합니다.

크레딧 (Credits)은 만료됩니다. 일부 제공업체는 30일 이내에 사라지는 무료 크레딧을 제공합니다. 테스트 단계라면 괜찮지만, 실수로 프로덕션 트래픽 (production traffic)을 무료 티어 (free tier)에 저장해 두었다면, 당신은 시한폭탄을 만들어 놓은 셈입니다.

애그리게이터 패턴 (aggregator pattern)은 이 모든 문제를 해결합니다. 하나의 키, 하나의 인보이스, 하나의 청구서. 트레이드오프 (trade-off)는 보통 토큰당 약간의 마진 (markup)이 붙는 것이지만, 스타트업의 사용량 규모에서는 직접 구축하는 데 소모될 엔지니어링 시간과 비교하면 반올림 오차 수준에 불과합니다.

저를 믿게 만든 수학적 계산

이제 재미있는 부분이 나옵니다. Global API를 대상으로 실제 수치를 계산해 보았을 때, 저는 약간 속이 울렁거리는 것을 느꼈습니다. 왜냐하면 우리는 몇 달 동안 과다 지불을 해왔기 때문입니다.

저희 내부 기획 문서에 스케치했던 것과 동일한 성장 곡선을 사용하겠습니다. GPT-4o 출력 비용을 정가($10/M tokens)로 지불하는 경우와, Global API를 통해 DeepSeek V4 Flash로 라우팅하는 경우(저희 사용량 기준 약 $0.25/M tokens)를 비교해 보겠습니다:

MVP 단계, 활성 사용자 100명, 월 약 5M tokens: GPT-4o 직접 비용은 약 $50입니다. Global API를 통한 DeepSeek V4 Flash 사용 시: $1.25입니다. 이는 97.5%의 절감 효과입니다.
Beta 단계, 사용자 1,000명, 월 약 50M tokens: 직접 비용은 $500입니다. Global API를 통한 사용 시: $12.50입니다. 동일하게 97.5%입니다.
Launch 단계, 사용자 10,000명, 월 약 500M tokens: 직접 비용은 $5,000입니다. Global API를 통한 사용 시: $125입니다.
Growth 단계, 사용자 100,000명, 월 약 5B tokens: 직접 비용은 $50,000입니다. Global API를 통한 사용 시: $1,250입니다.

마지막 줄을 다시 읽어보세요. 우리는 매달 말 그대로 $48,750를 길바닥에 버리고 있었습니다. 현재 규모에서 그 금액은 시니어 엔지니어 한 명의 연봉입니다. 런웨이(Runway)의 4분의 3에 해당하는 금액입니다. 하락장에서 투자를 받느냐 못 받느냐를 결정짓는 차이입니다.

두 모델 간의 근본적인 가격 비율은 사용량이 늘어난다고 해서 변하지 않기 때문에, 97.5%의 절감률은 모든 단계에서 유지되었습니다. 대부분의 창업자가 놓치는 부분이 바로 이것입니다. 규모가 커짐에 따라 발생하는 비용 절감은 협상을 통해 깎는 퍼센티지가 아닙니다. 그것은 당신이 어떤 모델을 선택하느냐와 얼마나 효율적으로 라우팅(Routing)하느냐에 따른 함수입니다.

제가 실제로 배포한 아키텍처 (Architecture)

보세요, 누구나

이것이 바로 우리 단계에서 실제로 중요한 아키텍처 결정 사항들입니다. 우리는 이론적인 규모(Scale)를 위해 최적화하는 것이 아닙니다. 우리는 향후 3개월을 위해 최적화하고 있습니다. 즉, 새로운 모델이 출시된 당일에 바로 테스트할 수 있는 능력, 엔터프라이즈 계약을 재협상하지 않고도 가격 변동을 수용할 수 있는 능력, 그리고 새벽 2시에 아무에게도 호출(Paging)을 보내지 않고도 장애 조치(Failover)를 수행할 수 있는 능력 말입니다.

import os
from openai import OpenAI

...

이 코드 스니펫(Snippet)이 하지 않는 점에 주목하세요. 세 개의 서로 다른 SDK를 임포트(Import)하지도 않고, 세 개의 API 키를 관리하지도 않으며, 어떤 제공업체가 어떤 모델을 호스팅하는지 신경 쓰지 않습니다. deepseek-ai/DeepSeek-V4-Flash를 Global API가 노출하는 184개의 모델 중 아무 것으로나 교체해도, 변하는 것은 비용과 품질 프로필(Quality profile)뿐입니다.

이것이 스타트업 단계에서 애그리게이터(Aggregator)를 사용하는 전체적인 핵심 논거입니다. 통합된 인터페이스(Interface), 통합된 빌링(Billing), 그리고 통합된 관측성(Observability)을 얻으면서도, 토큰당 비용은 서구권 제공업체에 직접 지불하는 비용보다 여전히 40배나 저렴합니다.

나중에 걱정할 엔터프라이즈 관련 사항들

저는 스타트업의 CTO입니다. 우리에게는 엔터프라이즈 조달(Procurement) 팀이 없습니다. 곧 진행될 SOC2 감사도 없습니다. 모든 벤더(Vendor)를 검토하는 CISO(정보보호최고책임자)도 없습니다.

하지만 저는 그런 환경에 있는 창업자들을 알고 있습니다. 그리고 "엔터프라이즈급"이라는 이유로 "그냥 제공업체를 직접 사용하자"라고 결정했던 이들은 종종 우리보다 더 좋지 않은 상황에 처하곤 했습니다.

왜일까요? 맞춤형 DPA(데이터 처리 합의서), Net-30 송장 발행, 전용 용량(Dedicated capacity), 또는 실제 SLA(서비스 수준 협약)가 필요한 순간, 당신은 API 토큰을 사는 것이 아니라 엔터프라이즈 기능들을 사는 것이기 때문입니다. 그리고 그러한 기능들은 가격이 책정되어 있고, 협상되어 있으며, 계약을 통해 제공됩니다. 그 시점에서 대화의 주제는 "토큰당 비용이 얼마인가"에서 "관계의 총비용(Total cost of the relationship)이 얼마인가"로 전환됩니다.

Global API에는 대형 제공업체와 12개월 기업 계약(enterprise agreement)을 강제로 체결하지 않고도 이를 처리할 수 있는 Pro Channel 티어가 있습니다. 이를 통해 99.9%의 가동 시간 SLA (Service Level Agreement), 24/7 우선 지원, 전용 용량 (공유 인스턴스가 아님), 맞춤형 DPA (Data Processing Agreement), Net-30 인보이스 발행, 그리고 온보딩을 위한 전담 엔지니어를 제공받을 수 있습니다. 또한 184개 모델 전체에 대해 우선순위 큐(priority queue) 액세스 권한을 얻게 되는데, 이는 모델 제공업체의 상태가 좋지 않아 모든 사용자가 퍼블릭 엔드포인트(public endpoint)를 몰아칠 때 매우 중요합니다.

만약 제가 컴플라이언스(compliance) 요구 사항과 실제 법무 팀을 갖춘 시리즈 B(Series B) 이상의 기업을 운영하고 있다면, 저는 이것을 구매할 것입니다. 원칙적으로 애그리게이터(aggregator)를 좋아해서가 아니라, 그 대안이 여러 모델 제공업체와 각각의 조달 프로세스, 각자의 보안 설문지, 그리고 각기 다른 "우선 지원" 정의를 가진 직접적인 기업 계약을 협상하는 것이기 때문입니다.

import os
from openai import OpenAI

...

Pro/ 접두사(prefix)가 유일한 차이점입니다. 동일한 SDK, 동일한 함수 호출, 동일한 응답 형식을 사용합니다. 하지만 내부적으로는 SLA가 보장되는 전용 인프라(dedicated infrastructure)를 사용하게 됩니다. 만약 귀하가 곧 엔터프라이즈 고객을 확보할 예정이며 그들의 보안 검토(security review)를 통과해야 하는 스타트업이라면, 이것이 가장 저항이 적은(path of least resistance) 경로입니다.

프로덕션 준비 완료 체크리스트 (The Production-Ready Checklist)

저는 새로운 인프라 의존성을 평가할 때 머릿속으로 체크리스트를 돌려봅니다. 만약 이 중 두 가지 이상을 충족하지 못한다면, 제외 대상입니다:

한 시간 안에 교체할 수 있는가? 만약 공급업체가 내일 사라진다면, 마이그레이션 (Migration) 할 수 있는가? 어그리게이터 (Aggregators)는 SDK가 OpenAI와 호환되기 때문에 이 항목에서 높은 점수를 받습니다.
비용을 실시간으로 확인할 수 있는가? 제어되지 않는 루프 (Runaway loop)를 디버깅할 때는 토큰 단위의 관측성 (Token-level observability)이 중요합니다.
우아하게 실패하는가 (Fail gracefully)? 기본 제공업체의 성능이 저하될 때, 500 에러가 발생하는가, 아니면 합리적인 폴백 (Fallback)을 제공하는가? 이것이 제가 라우터 (Router)를 구축한 이유입니다.
가격 예측이 가능한가? 다시 견적을 낼 필요 없이, 10배 성장 시 비용이 얼마나 들지 알고 싶습니다.
종속되는가? 벤더 종속 (Vendor lock-in) 방지는 사치가 아니라 하나의 기능입니다. 선택권을 유지하기 위한 비용은 거의 항상 지불할 가치가 있습니다.

Global API는 이 다섯 가지를 모두 충족합니다. 제대로 된 어그리게이터라면 마찬가지입니다. 여기서 얻는 교훈은 "이 특정 업체를 사용하라"가 아닙니다. 교훈은 "18개월 이내에 반드시 제공업체를 바꾸고 싶어질 것이라고 가정하고 AI 인프라를 구축하라"는 것입니다. 왜냐하면 실제로 그렇게 될 것이기 때문입니다.

실질적인 ROI

저는 ROI (투자 대비 수익) 질문으로 계속 되돌아갑니다. 왜냐하면 이 질문이 창업자들을 곤경에 빠뜨리기 때문입니다. 만약 이 인프라 결정의 프레임을 "이것이 돈을 아껴주는가"로 잡는다면, "이 결정의 ROI는 무엇인가?"라는 질문은 잘못된 질문입니다. 당연히 돈을 아껴줍니다. 97.5%를 절감하면 돈이 절약됩니다.

올바른 질문은 이것입니다: "절감된 그 돈으로 무엇을 할 수 있는가?" 저희의 경우, 답은 다음과 같았습니다:

창업 팀에게 업무를 떠넘기는 대신 파트타임 ML 엔지니어를 고용할 수 있었습니다.
평가 (Evals) 실행 비용이 오차 범위 수준으로 떨어졌기 때문에, 검색 파이프라인 (Retrieval pipeline)에 대해 더 긴 평가를 수행할 수 있었습니다.
각 실험 비용이 달러가 아닌 센트 단위이므로, 더 공격적으로 A/B 테스트를 할 수 있었습니다.
"마진이 생기면 그 기능을 추가하자"라고 말하는 것을 멈출 수 있었습니다. 왜냐하면 이제 마진이 생겼기 때문입니다.

이것이 진짜 ROI 계산법입니다. "월 4만 8천 달러를 아꼈다"가 아니라 (물론 실제로 아꼈지만), "그동안 감당할 수 없었던 일들을 이제는 할 수 있게 되었다"는 것입니다.

만약 당신이 API 비용으로 고군분투하는 스타트업의 CTO라면, 이번 주에 어그리게이터 라우팅 (Aggregator routing)에 대한 계산을 해보십시오. 숫자를 보고 깜짝 놀랄 것입니다. 저도 그랬으니까요.

과거의 나에게 해주고 싶은 말

만약 제가 6개월 전의 저에게, 즉 "최적화는 나중에 하자"라고 생각했던 저에게 메시지를 보낼 수 있다면, 이렇게 말하고 싶습니다.

잘못된 라우팅 (routing)의 비용은 복리로 쌓입니다. 비효율적인 스택(stack)에서 획득한 모든 사용자는 여러분이 영원히 지원 비용을 지불해야 하는 사용자가 됩니다.
벤더 종속 (vendor lock-in)의 비용은 AWS 청구서에 나타나지 않습니다. 그것은 스프린트 계획 (sprint planning), 채용, 그리고 자금 소진율 (burn rate)에서 나타납니다.
빠른 반복 (iteration)이 아키텍처 (architecture)를 건너뛰는 것을 의미하지는 않습니다. 그것은 가장 빠르게 반복할 수 있게 해주는 아키텍처를 선택하는 것을 의미합니다. AI API의 경우, 그것은 하나의 OpenAI 호환 키를 가진 모델 불가지론적 라우터 (model-agnostic router)입니다.
"나중에 제공업체를 바꾸면 돼"라는 말은 "신용카드는 다음 달에 갚으면 돼"라는 말과 맞먹는 기술 부채 (technical debt)입니다. 여러분은 결국 갚지 못할 것입니다. 그러니 그냥 하지 마세요.

우리는 거창하게 하지 않았습니다. Kubernetes 위에 커스텀 LLM 게이트웨이 (LLM gateway)를 구축하지도 않았습니다. 우리는 얇은 라우팅 계층 (routing layer), 한 제공업체의 API 호환 SDK, 그리고 저와 같은 상황에 처한 모든 스타트업 CTO에게 제가 추천할 만한 동일한 패턴을 사용했습니다.

원한다면 시도해 보세요

저는 Global API의 급여를 받는 사람이 아닙니다. 저는 숫자를 강박적으로 계산하는 스타트업 CTO이며, 숫자가 결정을 명확하게 만들어 주었습니다. 만약 여러분도 저와 같은 상황이라면 — 단일 제공업체에 현금을 쏟아붓고 있고, 벤더 종속을 걱정하며, 조달 팀이 필요 없는 프로덕션 준비 완료된 (production-ready) 경로를 찾고 있다면 — global-apis.com에서 Global API를 살펴보세요.

무료 티어 (free tier)는 그들이 제공하는 모든 모델을 평가하기에 충분할 만큼 관대합니다. 크레딧 시스템은 만료되지 않는데, 이는 대부분의 제공업체가 제공하는 "무료 체험" 크레딧에 대해서는 말할 수 없는 장점입니다. 그리고 규모가 커지면, 결국 필요하게 될 SLA (Service Level Agreement)와 전용 용량 (dedicated capacity)을 갖춘 Pro Channel이 준비되어 있습니다.

제가 했던 것과 똑같은 계산을 해보십시오. 실제 토큰 볼륨 (token volume)을 곱해 보십시오. 그런 다음 결정하십시오. 수학은 수학입니다.