1주 차 vs 12개월 차: 나의 AI API 아키텍처 결정 사항

솔직히 말씀드리겠습니다. 우리 제품에 처음 LLM (Large Language Model)을 연결했을 때, 저는 DeepSeek의 API를 테스트하기 위해 WeChat 계정을 등록하는 데만 3시간을 허비했습니다. 그때 저는 직접 연결(going direct) 방식이 규모가 커졌을 때 문제가 될 것이라는 점을 깨달았습니다.

두 번의 피벗(pivot), Series A 투자 유치, 그리고 운영 환경에서 월간 약 1,100만 건의 API 호출을 처리하게 된 3년이 지난 지금, 저는 "OpenAI를 직접 사용하라"는 조언이 사용자 100명 이상의 사이드 프로젝트를 출시해 본 적 없는 사람들이 쓴 글이라는 것을 배웠습니다. 1주 차에 내리는 아키텍처 결정은 12개월 차에 내리는 결정과 완전히 다릅니다. 스타트업을 운영할 때와 엔터프라이즈(enterprise)로 운영할 때 실제로 중요한 것이 무엇인지, 그리고 왜 제가 제공업체와의 계약을 쫓는 대신 통합 API 계층(unified API layer)으로 표준화하게 되었는지에 대해 말씀드리겠습니다.

아무도 말하지 않는 실제 비용 차이

우리 AI 기능에 대한 첫 번째 번레이트(burn-rate, 자금 소진율) 계산을 수행했을 때, 저는 프로젝트를 포기할 뻔했습니다. 예상 출시 규모를 기준으로 GPT-4o 직접 사용 가격은 월 50,000달러에 달했습니다. 그것은 스타트업 비용이 아니라, 두 번째 급여 명부 수준이었습니다.

모델들을 비교하기 시작하면서 가격 산출 방식이 모든 것을 바꾸어 놓았습니다:

DeepSeek V4 Flash: $0.25/M tokens (output)
Qwen3-32B: $0.28/M tokens (output)
R1/K2.5: $2.50/M tokens (output)
Direct GPT-4o: $10.00/M tokens (output)

동일한 작업. 다른 모델. 40배 더 저렴합니다. 이것은 단순한 최적화가 아닙니다. 6개월 안에 회사를 세우느냐, 아니면 2개월 만에 런웨이(runway)가 바닥나느냐의 차이입니다.

다음은 제가 이사회 보고용 자료(board deck)를 위해 작성한 비용 전망입니다:

성장 단계	월간 볼륨	DeepSeek V4 Flash	Direct GPT-4o	절감액
MVP (100 users)	5M tokens	$1.25	$50	97.5%
...

97.5%의 절감 효과는 모든 단계에서 유지되었습니다. 현재 우리의 볼륨에서 이는 1,250달러짜리 항목과 매 분기 이사회에 설명해야 하는 항목 사이의 차이입니다. 전체 마진 구조가 이에 달려 있을 때 ROI (Return on Investment, 투자 대비 수익)는 이론적인 문제가 아닙니다.

왜 "그냥 직접 연결하라"는 조언이 스타트업에게 나쁜 조언인가

모든 개발자 포럼에는 항상 똑같은 스레드가 있습니다: "어떤 API를 사용해야 할까요?" 그리고 답변은 언제나 "OpenAI로 직접 가세요" 또는 "Anthropic으로 직접 가세요"입니다. 해커톤(hackathon)이라면 괜찮습니다. 하지만 프로덕션(production) 환경에서는 재앙입니다.

제가 직접 제공업체(direct-provider) 방식을 시도했을 때 직면했던 실제 문제들은 다음과 같습니다:

벤더 종속 (Vendor lock-in)은 소리 없는 살인자입니다. 특정 제공업체의 SDK를 기반으로 직접 구축하면, 모든 기능, 모든 엔드포인트(endpoint), 모든 프롬프트 형식이 해당 제공업체의 형식이 됩니다. 전환 비용은 복리로 쌓입니다. 6개월이 지나면, 여러분은 "다른 모델을 사용해야 할까"를 고민하는 것이 아니라, "백엔드의 절반을 다시 작성해야 하는가"를 고민하게 됩니다. 저는 한 경쟁사가 하룻밤 사이에 가격을 3배 올린 제공업체로부터 탈출하기 위해 4개월을 허비하는 것을 지켜보았습니다. 그들은 소모된 엔지니어링 시간을 결코 회복하지 못했습니다.

결제 마찰 (Payment friction)은 실험을 죽입니다. 대부분의 중국 모델 제공업체(DeepSeek, Qwen, Zhipu)는 결제를 위해 WeChat 또는 Alipay를 요구합니다. 미국 은행 계좌를 가진 미국 기반 스타트업으로서, 이는 말 그대로 중국 전화번호 없이는 가입조차 할 수 없음을 의미했습니다. 이것은 기능 비교의 문제가 아니라, 강력한 차단 요소(hard blocker)입니다.

모델별 계약은 확장성이 없습니다. 각 작업에 적합한 모델을 찾기 위해 184개의 서로 다른 모델을 테스트할 때, 184개의 제공업체 계정에 가입하는 것은 반복(iteration)이 아니라 관료주의입니다. 모든 가입 절차에는 각기 다른 할당량(quota), 각기 다른 결제 주기, 각기 다른 자격 증명 순환(credential rotation)이 따릅니다. 인지적 오버헤드(mental overhead)만으로도 팀의 속도(velocity)가 저하됩니다.

만료되는 크레딧은 느린 행동에 대해 벌을 줍니다. 대부분의 직접 제공업체는 30일 후에 만료되는 체험용 크레딧을 제공합니다. 따라서 여러분의 팀이 신중하게 행동하고, 테스트 전에 생각하며, 비용을 의식하려고 노력한다면 — 크레딧을 잃게 됩니다. 이는 스타트업이 장려받아야 하는 방식과는 정반대입니다.

단일 장애점 (Single point of failure). 전체 스택이 하나의 제공업체(provider)를 통해 실행될 때, 그들이 문제를 겪으면 당신의 제품 전체가 문제를 겪게 됩니다. 이는 이론적인 위험이 아닙니다. 작년에 한 제공업체의 API가 아무런 예고 없이 우리 계정 전체에 속도 제한 (rate-limit)을 거는 바람에, 서비스 장애로 인해 6시간 동안 운영 환경 (production)이 다운된 적이 있습니다.

많은 시행착오 끝에 제가 내린 결론은 통합 API 레이어 (unified API layer), 구체적으로는 Global API를 사용하는 것이었습니다. 하나의 키, 184개의 모델, 결제를 위한 PayPal/Visa/Mastercard, 이메일 전용 등록, 만료되지 않는 크레딧, 그리고 제공업체 간의 자동 장애 조치 (automatic failover)를 제공합니다. "앱당 하나의 제공업체"에서 "하나의 키, 다수의 모델"로의 아키텍처 전환은 제가 일 년 동안 배포한 것 중 신뢰성과 비용 측면에서 가장 큰 개선을 가져온 변화였습니다.

아키텍처 결정 사항: 모델 라우팅 (Model Routing)

여기에 아무도 쓰지 않는 부분이 있습니다. 이를 제대로 수행할 때 실제 코드가 어떤 모습인지에 대한 내용입니다. 저는 모든 LLM 호출 앞에 모델 라우터 (model router)를 실행합니다. 서로 다른 작업은 서로 다른 모델로 전달됩니다. 비용 차이는 엄청납니다:

import os
from openai import OpenAI

...

핵심 통찰은 모든 호출에 가장 비싼 모델이 필요하지는 않다는 점입니다. 분류 (classification), 추출 (extraction), 요약 (summarization) — 이러한 작업들은 비용이 10~40배 더 저렴한 저가형 모델에서도 잘 작동합니다. 오직 진정으로 어려운 추론 (reasoning) 작업만이 프리미엄 티어 (premium tier)를 필요로 합니다. 규모가 커지면, 이 차이가 수익이 나느냐 아니냐를 결정짓습니다.

실제로 엔터프라이즈 기능이 필요한 시점

여기서부터는 미묘한 차이가 발생합니다. MVP에서 출시 단계로 성장하면서 우리는 벽에 부딪혔습니다. 우리의 가장 큰 고객인 Fortune 500 기업이 SOC2 준수 벤더, 재정적 구속력이 있는 SLA (Service Level Agreement), 그리고 맞춤형 데이터 처리 계약 (Data Processing Agreement)을 요구했기 때문입니다. 이는 선택 사항이 아닙니다. 이는 조달 (procurement)의 문제입니다. 만약 우리가 이를 제공할 수 없었다면, 계약을 성사시킬 수 없었을 것입니다.

이 시점이 바로 대부분의 스타트업이 패닉에 빠져 OpenAI나 Anthropic과 직접 엔터프라이즈 계약을 체결하기 시작하는 순간입니다. 약정 기간은 보통 12개월이며, 최소 지출액은 5만 달러에서 50만 달러 사이입니다. 그리고 당신을 처음에 빠르게 만들었던 그 모든 유연성을 포기하게 됩니다.

더 나은 경로가 있습니다: Global API의 Pro Channel입니다. 동일한 통합 인터페이스와 동일한 184개의 모델을 제공하면서도, 조달 (procurement) 부서가 실제로 신경 쓰는 엔터프라이즈 기능들을 갖추고 있습니다:

99.9% 가동 시간 SLA (미준수 시 재무적 크레딧 제공)
실제 엔지니어가 대기하는 24/7 우선 지원 (priority support)
전용 용량 인스턴스 (dedicated capacity instances, 노이지 네이버(noisy neighbors) 문제 없음)
맞춤형 데이터 처리 합의서 (Data Processing Agreement) 제공 가능
미지급금 결제를 위한 Net-30 인보이스 청구
트래픽에 따라 확장 가능한 맞춤형 속도 제한 (rate limits)
184개 모델 전체에 대한 우선순위 큐 (priority queue) 액세스
전담 온보딩 엔지니어

코드는 표준 티어 (standard tier)와 동일해 보입니다. 즉, 두 개의 코드베이스를 유지 관리할 필요가 없습니다:

# Pro Channel — 동일한 SDK, 전용 백엔드
client = OpenAI(
    api_key="ga_pro_xxxxxxxxxxxx",   # 귀하의 Pro Channel 키
...

우리는 현재 프로덕션에서 두 티어를 모두 사용하고 있습니다. 소비자용 제품(SLA보다 비용이 더 중요한 경우)에는 표준 티어를, B2B 제품(가동 시간 보장이 계약상의 의무인 경우)에는 Pro Channel을 사용합니다. 하나의 API 접점(surface)으로 두 가지 서비스 수준을 제공합니다. 제 엔지니어링 팀은 별도의 통합 과정을 유지 관리할 필요가 없고, 저희 CFO는 두 개의 서로 다른 벤더 계약을 협상할 필요도 없습니다.

내가 다시 만든다면 구축할 하이브리드 아키텍처

만약 제가 내일 다시 시작한다면, 첫날부터 출시할 아키텍처는 다음과 같습니다:

┌─────────────────────────────────────────┐
│           귀하의 애플리케이션              │
├─────────────────────────────────────────┤
...

이 방식이 작동하게 만드는 세 가지 요소가 있습니다:

첫째, 라우터 (router)입니다. 가장 저렴하면서도 실행 가능한 모델을 기본값으로 설정하세요. 응답 품질이 임계값(threshold) 아래로 떨어지면 약간 더 성능이 좋은 모델로 폴백 (fallback) 하세요. 실제로 필요한 작업에 대해서만 프리미엄 티어 (premium tier)로 격상시키십시오. 이것이 품질을 희생하지 않으면서 대규모 환경에서 비용 효율성을 유지하는 방법입니다.

둘째, 통합 레이어 (unified layer)입니다. 어떤 제공업체(provider)와 통신하고 있는지 코드가 알게 하지 마세요. global-apis.com/v1에 있는 OpenAI 호환 인터페이스 (OpenAI-compatible interface)를 사용하면 모델을 교체하거나, 제공업체에 장애가 발생하거나, 가격이 변동되어도 코드를 변경할 필요가 없습니다. 벤더 락인 (Vendor lock-in)이라는 개념 자체가 사라집니다.

셋째, 티어에 적합한 서비스 수준입니다. 표준 티어 (standard tier)의 소비자 대상 제품은 비용 최적화 (cost-optimization)를 적용받습니다. 엔터프라이즈 계약은 SLA (Service Level Agreement)가 포함된 프로 채널 (Pro Channel)을 통해 진행됩니다. 동일한 아키텍처, 동일한 코드, 하지만 비즈니스 태세는 다릅니다.

1주 차에 누군가 나에게 말해줬으면 했던 것들

이 시스템을 실제 운영 환경 (production)에서 3년 동안 운영하며 얻은 몇 가지 냉혹한 진실입니다:

사용량 데이터가 확보되기 전에는 연간 계약을 체결하지 마세요. 모델 선호도가 3개월 만에 바뀔 수도 있는 상황에서 12개월은 매우 긴 시간입니다. 통합 레이어 (unified layer)를 통한 종량제 (pay-as-you-go)의 유연성은 사용량이 진정으로 예측 가능해질 때까지는 고정 할인 계약보다 항상 우위에 있습니다.

LLM 청구서를 클라우드 인프라 (cloud infrastructure)처럼 취급하세요. 호출에 태그를 달고, 비용을 기능별로 할당하며, 예산 알림을 설정하세요. 저희의 요약 기능 비용이 갑자기 4배로 급증했을 때, 경로별 텔레메트리 (per-route telemetry)가 있었기에 한 시간 만에 문제를 파악할 수 있었습니다. 그것이 없었다면, 인지하기 전까지 2주 동안 손해를 보는 기능을 배포하고 있었을 것입니다.

저렴한 모델을 기본값으로 사용하고, 근거를 바탕으로 업그레이드하세요. 제가 아는 수익을 내는 모든 팀은 가장 저렴하고 실행 가능한 모델로 시작했으며, 품질이 중요하다는 벤치마크 데이터 (benchmark data)가 확보되었을 때만 특정 호출 경로를 업그레이드했습니다. 모든 것에 GPT-4를 기본값으로 설정하고 "나중에 최적화하겠다"는 반대의 접근 방식은 현금을 낭비할 뿐이며, 실제로 최적화되는 경우는 드뭅니다.

절대로 단일 제공업체가 당신의 스택을 독점하게 두지 마세요. 설령 오늘 올바른 선택을 했다고 확신하더라도, AI 생태계는 너무나 빠르게 변화합니다. 제공업체 간의 자동 장애 조치 (Auto-failover)는 편집증이 아니라, 그저 엔지니어링의 기본입니다.

맺음말

"제공업체로 직접 연결하라"는 조언은 취미 프로젝트나 일회성 스크립트에는 유효합니다. 하지만 비즈니스를 운영하는 순간 그 조언은 무너집니다. 규모가 커지면 ROI (투자 대비 수익) 계산은 토큰당 가격이 아니라 스택 전체를 대상으로 이루어집니다. 즉, 벤더 종속 (Vendor lock-in), 결제 마찰, 계약 유연성, 장애 조치 (Failover), 그리고 SLA (서비스 수준 협약) 경제성을 고려해야 합니다.

우리가 수행하는 대부분의 작업에는 표준 Global API 티어가 충분합니다. 184개의 모델, 하나의 키, 계약 없음, 만료되지 않는 크레딧, 그리고 동일 모델 기준 직접 제공업체 요금보다 약 40배 저렴한 가격을 제공합니다. 엔터프라이즈급 보장이 필요한 경우에는 아키텍처를 변경하지 않고도 특정 워크로드만 Pro Channel로 전환하면 됩니다.

만약 당신이 AI 제품을 출시하고 있는데, 제공업체 계정들을 관리하느라 지쳤거나, 사용 데이터도 확보하기 전에 계약을 협상해야 하거나, 모델을 교체할 때마다 번 레이트 (Burn rate, 자금 소진율)가 치솟는 것을 지켜보는 데 지쳤다면 — 진심으로 Global API를 확인해 보라고 권하고 싶습니다. 비용 절감만으로도 첫 달에 마이그레이션 비용을 모두 회수했습니다. 그 이후의 모든 것은 마진(이익)이었습니다.

global-apis.com에서 직접 살펴보실 수 있습니다. 만약 ~를 시도하고 있다면 살펴볼 가치가 있습니다.

Insights

1주 차 vs 12개월 차: 나의 AI API 아키텍처 결정 사항

요약

핵심 포인트