지난해 AI API에 47,000달러를 지출하며 깨달은 것들

솔직히 말해서, 저는 작년에 AI API에 47,000달러를 썼습니다. 제가 시작하기 전에 누군가 말해줬으면 좋았을 것들을 알려드리겠습니다.

보세요, 솔직하게 말씀드릴게요. 제가 처음 AI API를 활용해 개발을 시작했을 때, 저는 제가 무엇을 하고 있는지 전혀 몰랐습니다. 그냥 OpenAI 키를 가져와서 마구 사용하기 시작했고, 제 청구서가 마치 지역 축제의 열기구처럼 부풀어 오르는 것을 지켜보기만 했습니다. 12개월 동안 세 개의 서로 다른 프로젝트에서 약 47,000달러의 API 비용을 지출한 끝에, 저는 아주 혹독한 방식으로 몇 가지를 배웠습니다. 모든 인디 해커(indie hacker)와 기업 개발자(enterprise dev)가 들어야 한다고 생각하는 내용들입니다.

이것은 무언가를 팔려고 하는 VC(Venture Capital) 지원 기업이 작성한 가이드가 아닙니다. 여러분이 저와 같은 어리석은 실수를 하지 않도록 제가 배운 것을 공유하는 것뿐입니다.

우선순위: 스타트업과 기업은 같지 않습니다

솔직히 말해서, AI API 분야에는 모든 사람을 똑같이 취급하는 가이드들이 넘쳐납니다. 그들은 "그냥 OpenAI를 쓰세요!"라고 말하죠. 좋습니다, 감사합니다. 사용자 12명에 분기 전체 예산이 200달러뿐인 상황에서는 정말 도움이 되겠네요.

현실은 어떨까요? MVP(Minimum Viable Product)를 운영하는 1인 창업자와 Fortune 500 기업은 요구 사항이 완전히 다릅니다. 이 둘이 다르지 않은 척하는 것은 그저 게으른 글쓰기일 뿐입니다. 그러니 제대로 나누어 봅시다.

진짜 의사결정 프레임워크 (실수를 저질러본 사람의 관점)

이것은 제가 첫날에 가졌더라면 좋았을 매트릭스(matrix)입니다. 저는 30명 이상의 창업자들과, 커피(또는 솔직히 Zoom이겠죠)를 마시며 자신들의 전쟁 이야기를 친절하게 공유해 준 몇몇 기업 개발자들과 대화한 후 이것을 만들었습니다.

예산 현실 점검:

스타트업인 경우: AI를 위해 아마도 월 10~500달러 정도를 사용하고 있을 것입니다. 자금을 조달했다면 더 많을 수도 있겠지만, 솔직히 제가 아는 대부분의 인디 해커들은 타이트하게 부트스트래핑(bootstrapping)을 하고 있습니다.
기업인 경우: 월 5,000달러에서 50,000달러 이상이 꽤 일반적입니다. 어떤 회사들은 훨씬 더 많이 쓰기도 합니다. 제가 대화한 한 사람은 월 200,000달러를 쓰고 있다고 하더군요. 저는 콜드 브루를 마시다 사레가 들릴 뻔했습니다.

모델의 다양성이 생각보다 중요합니다:
아무도 말해주지 않는 사실이 하나 있습니다. "최고의" 모델은 매달 바뀝니다. 말 그대로 매달 말이죠. 6개월 전만 해도 모두가 GPT-4에 열광했습니다. 지금은요? 제가 아는 개발자의 절반은 대부분의 작업에 DeepSeek나 Qwen을 사용하고 있습니다. 만약 하나의 제공업체(provider)에만 묶여 있다면, 당신은 고립될 것입니다. 만약 하나의 API 키로 184개의 모델을 제공하는 애그리게이터 (aggregator)를 통한다면, 단 몇 초 만에 모델을 교체할 수 있습니다. 제 말을 믿으세요.

통합 속도 (Integration Speed):
스타트업 버전: "이번 주 금요일까지 이거 작동해야 해요."
엔터프라이즈 (Enterprise) 버전: "마지막 세미콜론 하나까지 문서화되어야 하며, 컴플라이언스 (compliance) 검토와 47페이지 분량의 보안 설문지가 필요합니다."

둘 다 타당한 요구사항입니다. 하지만 사용하는 도구는 다릅니다.

지원 (Support) 차이:
제 첫 SaaS를 운영할 때는 Discord 서버와 Stack Overflow로 버텼습니다. 하지만 규모가 큰 기업들을 대상으로 하는 컨설팅 업무는 어땠을까요? 그들은 말 그대로 전담 엔지니어가 배정된 24/7 전화 지원을 필요로 했습니다. 제품은 같지만, 기대치는 완전히 다릅니다.

SLA 요구사항:
스타트업: 20분 동안 서비스가 중단되면, 트위터에 글 하나 올리고 그냥 넘어갑니다.
엔터프라이즈: 20분 동안 서비스가 중단되면, 누군가는 해고당하고 변호사들이 계약서를 재검토합니다.

보안 및 컴플라이언스 (Security & Compliance):
일반적인 스타트업: 기본적인 인증 (auth), 전송 중 암호화 (encrypted in transit) 정도면 충분했습니다.
엔터프라이즈: SOC2, ISO 27001, 데이터 처리 합의서 (data processing agreements) 등 모든 것을 갖춰야 합니다.

결제 방식:
스타트업 시절의 나: "PayPal 되나요? 아니면 Apple Pay는요? 법인 카드가 없어서요."
엔터프라이즈 시절의 나: "저희 구매 플랫폼에 통합된 PO (purchase order) 시스템과 함께 익월 결제 (net-30) 인보이스가 필요합니다."

네, 그렇습니다. 완전히 다른 세상입니다.

내가 빠졌던 스타트업의 함정 (그리고 이를 피하는 방법)

자, 이제 동료 인디 해커 (indie hackers)들에게 정말 도움이 되고 싶은 이야기를 해보겠습니다. 제가 처음 시작했을 때, 저는 제공업체에 직접 (DIRECT) 연결하는 것이 현명한 선택이라고 생각했습니다. "중간 단계를 없애자!"라고 말했죠. "비용을 아끼자!"라고도 했습니다. 하지만 저는 정말 틀렸습니다.

DeepSeek, Qwen 또는 다른 중국 AI 연구소와 같은 제공업체에 직접 연결하려고 할 때 실제로 일어나는 일은 다음과 같습니다:

모델 종속 (Model Lock-In)은 실재합니다:
DeepSeek의 직접 API를 사용하여 첫 제품을 만들었습니다. 그러다 그들의 속도 제한 (Rate limits)이 변경되었습니다. 그다음에는 지역적 장애 (Regional outage)가 발생했습니다. 그다음에는 시각 기능 (Vision capabilities)이 필요했는데 그들은 제가 원하는 것을 가지고 있지 않았습니다. 저는 완전히 망했습니다 (SCREWED). 데모 직전인 새벽 2시에 통합 코드 (Integration code)를 다시 작성해야 했습니다. 참 즐거운 시간이었죠.

184개의 모델을 보유한 애그리게이터 (Aggregator)를 사용하면, 파라미터 하나만 바꿔도 다른 제공업체를 사용하게 됩니다. 30초밖에 걸리지 않았습니다. 프로덕션 환경에서 재배포 (Redeploy) 없이 백엔드 (Backend)를 처음 교체했을 때, 저는 말 그대로 낄낄거리며 웃었습니다.

결제 문제 (Payment Headaches):
일부 중국 AI 제공업체에 가입하려고 시도해 보세요. 다음과 같은 것들이 필요할 것입니다:

중국 전화번호 (저는 없습니다)
WeChat Pay 또는 Alipay (이 또한 없습니다)
때로는 중국 은행 계좌 (이건 확실히 없습니다)

아니면 일반적인 사람들처럼 PayPal, Visa, Mastercard를 지원하는 애그리게이터를 사용하면 됩니다.

가입 마찰 (Registration Friction):
제가 시도했던 한 제공업체는 중국 정부 신분증으로 본인 인증을 요구했습니다. 다른 곳은 중국어로 된 사업자 등록증을 원했습니다. 사이드 프로젝트 (SIDE PROJECT)를 위해서 말이죠. 저는 아주 빠르게 포기했습니다.

Global API를 사용했을 때요? 저는 이메일로 약 45초 만에 가입했습니다. 끝났습니다.

가격의 놀라움 (Pricing Surprises):
직접 연결하는 것이 더 저렴해 보이지만, 다음과 같은 사실을 깨닫기 전까지는 그렇습니다:

각 제공업체와 별도의 계약을 체결해야 합니다
대량 구매 할인 (Volume discounts)을 받으려면 영업 담당자와 통화해야 합니다
연간 지출을 약속할 수 없기 때문에 소매가 (Retail rates)를 지불하게 됩니다
제공업체마다 결제 주기 (Billing cycles)가 다릅니다 (장부 정리하려면 행운을 빕니다)

애그리게이터를 통한 통합 크레딧 시스템 (Unified credit system)은요? 훨씬 더 간단합니다. 하나의 인보이스 (Invoice), 하나의 결제, 하나의 멘탈 모델 (Mental model).

테스트는 악몽입니다 (Testing Is A Nightmare):
5개의 서로 다른 모델을 테스트하고 싶으신가요? 직접 API를 사용하면 5번의 가입, 5개의 API 키, 5번의 통합, 5번의 결제 설정이 필요합니다. 하지만 애그리게이터를 사용하면 코드에서 문자열 하나만 바꾸면 됩니다. 저는 어느 쪽을 선호하는지 잘 알고 있습니다.

사라지지 않는 크레딧 (Credits):
저를 끝없이 짜증 나게 했던 작은 문제 하나가 있습니다. 일부 제공업체는 30일이 지나면 만료되는 무료 크레딧을 제공합니다. 쓰지 않으면 사라지는 방식이죠. Global API는 어떤가요? 크레딧이 절대 만료되지 않습니다. 8개월 전에 받은 약 23달러 상당의 크레딧이 여전히 그대로 남아 있습니다. 정말 기분 좋은 일이죠.

다운타임 방지 (Downtime Protection):
단일 제공업체 사용은 단일 장애점 (Single point of failure)을 의미합니다. 몇 달 전 DeepSeek에 대규모 장애가 발생했을 때, 제 앱은 4시간 동안 중단되었습니다. 4시간이나 말이죠. 사용자들은 매우 화가 났습니다. 자동 장애 조치 (Auto-failover) 기능을 갖춘 애그리게이터를 사용하면, 요청은 단순히 다른 제공업체로 라우팅됩니다. 사용자는 눈치채지도 못할 정도입니다. 이것 하나만으로도 저는 여러 번 위기를 모면할 수 있었습니다.

실제 비용 수치 (실제 사용량 기준)

자, 잠시 기술적인 이야기를 해보겠습니다. 제가 실제로 지출한 금액과 GPT-4o에 직접 연결했을 때 지출했을 금액을 비교해 보았습니다. 다음은 제 사용 패턴을 기반으로 한 실제 수치입니다:

성장 단계	월간 볼륨	Global API 경유 (DeepSeek V4 Flash)	GPT-4o 직접 연결	절감액
MVP (사용자 100명)	5M 토큰	$1.25	$50	97.5%
...

이 수치를 잘 생각해보세요. 97.5%의 절감입니다. 매번 말이죠.

하지만 여기서 중요한 점이 있습니다. 절감액도 좋지만, 정말 중요한 것은 유연성 (Flexibility)입니다. 베타 테스트 기간에는 저렴한 모델을 사용했습니다. 출시 단계에서는 프리미엄 요청은 더 나은 모델로, 그 외의 모든 요청은 저렴한 모델로 라우팅하기 시작했습니다. 프로덕션 환경에서 A/B 테스트를 할 수 있었던 것이죠. 주말 사이에 전체 모델 전략을 피벗 (Pivot) 할 수도 있었습니다.

12개월 계약으로 단일 제공업체에 묶여 있을 때 이런 일을 해보려고 시도해 보세요. (웃음)

엔터프라이즈 경로: 고급 기능이 필요할 때

이 글을 읽고 있는 엔터프라이즈 관계자분들(또는 결국 엔터프라이즈에 제품을 판매하고 싶어 하는 인디 해커분들 — 좋습니다, 그 야망을 존중합니다)을 위해, 이제 본격적인 이야기를 해보겠습니다.

실제 자금, 실제 서비스 수준 협약 (SLA), 그리고 실제 법무팀을 상대해야 할 때는 신용카드와 기도만으로는 부족합니다. Pro Channel 티어가 필요합니다. 해당 티어에서 제공받는 기능은 다음과 같습니다:

99.9% 가동 시간 SLA: 이는 서비스가 한 달에 43분 이상 중단될 경우 크레딧을 제공받는다는 의미입니다. 월 $50K의 API 지출을 하는 회사에게 이 SLA는 실제 돈으로 환산되는 가치가 있습니다. 또한, CTO가 무언가를 승인하기 전에 반드시 물어볼 내용이기도 합니다.

24/7 우선 지원: 표준 티어에서는 Discord에 글을 올리고 6시간 안에 누군가가 답변해주기를 기다려야 합니다. 반면 Pro Channel에서는 전화를 걸면 담당 엔지니어가 전화를 받고, 커피를 다 마시기 전에 문제가 해결되기 시작합니다.

만약 제 회사가 장애로 인해 시간당 $2,000의 손실을 입고 있다면 어떤 Id를 원하는지 알겠습니다.

전용 용량: 이것은 엄청난 장점입니다. 표준 티어에서는 다른 모든 사람들과 용량을 공유하고 있습니다. 피크 시간에는 속도 제한(rate limited)이 걸리거나 응답 속도가 느려질 수 있습니다. 하지만 Pro Channel을 사용하면 전용 인스턴스를 얻게 됩니다. 마치 모두가 교통 체증에 갇혀 있는 동안 고속도로의 전용 차선을 사용하는 것과 같습니다.

맞춤형 데이터 처리 계약(Custom Data Processing Agreements): 기업들은 법적인 이유로 DPA(Data Processing Agreements)가 필요합니다. 고객 데이터를 처리할 때는 표준 약관(ToS)만으로는 부족합니다. Pro Channel은 맞춤형 계약을 제공합니다. 이 기능 덕분에 귀사의 법무팀이 매우 만족할 것입니다.

Net-30 송장 청구: 더 이상

from openai import OpenAI

client = OpenAI(
...

보이시나요? 말 그대로 똑같은 코드입니다. API 키 접두사(prefix)를 바꾸고 모델 이름에 "Pro/"를 추가하기만 하면 됩니다. 개발 팀은 새로운 SDK를 배울 필요가 없기 때문에 당신에게 고마워할 것입니다.

실제로 작동하는 하이브리드 아키텍처 (Hybrid Architecture)

자, 여기서 대부분의 가이드가 실수하는 지점이 있다고 생각합니다. 마치 한 가지 경로를 선택하거나 다른 하나를 선택해야 하는 것처럼 행동하죠. 하지만 솔직히 말해서, 가장 좋은(BEST) 설정은 하이브리드(hybrid)입니다. 제가 무엇을 하는지 설명해 보겠습니다.

저는 제 앱에서 스마트 라우터 (smart router)를 실행합니다. 간단한 로직입니다:

기본 요청 → 저렴하고 빠른 모델 (DeepSeek V4 Flash, 100만 토큰당 $0.25)
저렴한 모델이 낮은 신뢰도(low confidence)를 반환하거나 에러가 발생할 경우 → 약간 더 나은 모델로 폴백 (fallback) (Qwen3-32B, 100만 토큰당 $0.28)
프리미엄 티어 사용자 또는 복잡한 요청 → 사용 가능한 최상의 모델 (DeepSeek R1 또는 K2.5, 100만 토큰당 $2.50)

이것이 어떻게 구성되는지 의사코드 (pseudocode) 버전으로 보여드리겠습니다:

from openai import OpenAI

client = OpenAI(
...

멋진 점이 무엇인지 아십니까? 이 코드는 하루에 100개의 요청을 처리하든 100,000개의 요청을 처리하든 상관없이 작동합니다. 라우터는 확장(scale)됩니다. 모델들은 서로 교체 가능합니다. 만약 더 좋고 저렴한 새로운 모델이 나오면, 저는 그것으로 교체합니다. 지난번에는 말 그대로 3분밖에 걸리지 않았습니다.

진솔한 이야기: 만약 제가 처음부터 다시 시작한다면

좋습니다, 만약 제가 첫날로 돌아가서 저 자신에게 조언을 해줄 수 있다면, 이렇게 말할 것입니다:

1개월 차 (MVP 단계):
작동하는 가장 저렴한 모델을 사용하세요. 진심입니다. 과도한 엔지니어링 (over-engineer)을 하지 마세요. 모든 것에 Global API + DeepSeek V4 Flash를 사용하세요. 제품을 원하는 사람이 있는지 파악하는 동안 총 지출을 $50 미만으로 유지하세요.

2-3개월 차 (베타 단계):
위에서 보여드린 스마트 라우터 (smart router)를 사용하기 시작하세요. 대부분의 요청은 저렴하게 처리하고, 프리미엄 기능은 비싼 모델로 처리합니다. 비용을 월 $100-200 정도로 유지하세요. 여전히 저렴합니다.

4-6개월 차 (런칭 단계):
이 시점에는 사용자가 실제로 무엇을 필요로 하는지 알게 될 것입니다. 만약 B2B 사업을 하고 SLA(서비스 수준 협약)가 필요하다면, Pro Channel로 업그레이드하세요. 만약 B2C 사업을 하고 비용에 민감하다면, 표준 티어 (standard tier)를 유지하되 라우팅 (routing)을 최적화하세요. 규모에 따라 월 $500-2000 정도의 예산을 잡으세요.

6개월 차 이상 (성장 단계):
이 단계부터는 흥미로워집니다. 만약 빠르게 성장하고 있다면, Pro 채널이 반드시 필요합니다. 실제 매출을 발생시키고 있을 때는 서비스 수준 계약 (SLA), 기술 지원, 전용 용량 (dedicated capacity) 등이 모두 중요해집니다. 만약 성장하고 있지 않다면, API 비용을 최적화하기 전에 왜 성장이 더딘지부터 파악하세요.

아무도 경고해주지 않는 것들

제가 직접 겪으며 배운, 꽤 중요하다고 생각되는 몇 가지 사항들입니다:

1. 토큰 계산은 (어느 정도) 거짓말이다
모델마다 토큰을 계산하는 방식이 다릅니다. 1,000단어의 프롬프트가 어떤 모델에서는 1,300 토큰일 수 있지만, 다른 모델에서는 1,500 토큰이 될 수도 있습니다. 이는 생각보다 비용에 큰 영향을 미칩니다. 벤치마크 수치가 아니라, 항상 여러분의 실제 프롬프트로 테스트하세요.

2. 속도 제한 (Rate Limits)이 발목을 잡을 것이다
모든 제공업체에는 속도 제한 (rate limits)이 있습니다. 어떤 곳은 터무니없이 낮기도 합니다. Global API는 자동 장애 조치 (auto-failover) 덕분에 대부분의 서비스보다 이를 더 잘 처리하지만, 여전히 코드에 재시도 로직 (retry logic)을 구현해야 합니다. 지수 백오프 (Exponential backoff)는 여러분의 친구입니다.

3. 지연 시간 (Latency)은 매우 가변적이다
저렴한 모델이 항상 더 빠른 것은 아닙니다. 때로는