지연 시간을 1.5초 미만으로 유지하면서 LLM 비용 65% 절감하기

솔직히 말해서, 지연 시간(Latency)을 1.5초 미만으로 유지하면서 LLM 비용을 65% 절감했습니다.

6개월 전, 저는 제 스타트업을 거의 망하게 할 뻔했습니다. 제품이 실패해서도 아니었고, 시장이 원하지 않아서도 아니었습니다. 우리의 OpenAI 청구서가 월간 비용(burn rate)의 38%를 잡아먹고 있었고, 이를 해결할 수 있는 수단이 전혀 없었기 때문입니다.

그것은 모든 CTO가 두려워하는 순간입니다. 회사는 성장하고 있고, 모델은 잘 작동하며, 고객들은 만족하고 있는데, 재무 담당자가 스탠드업 미팅에 들어와 "런웨이(runway)가 14주 남았습니다"라고 적힌 스프레드시트를 내미는 순간 말이죠. 저는 제품 출시(shipping)에 너무 집중한 나머지, LLM 레이어를 마치 공공 유틸리티처럼 취급했습니다. 그냥 연결해 두고 잊어버리면 되는 것으로 생각했죠. 전형적인 실수였습니다. 규모가 커지면, 당신이 무시했던 것이 당신을 죽이는 요인이 됩니다.

이것은 제가 주말 동안 우리의 추론(inference) 레이어를 어떻게 재구축했는지, 그 비용은 얼마였는지, 무엇을 유지했는지, 그리고 왜 이제는 밤에 잠을 훨씬 더 잘 잘 수 있게 되었는지에 대한 이야기입니다. 만약 당신이 기술 창업자(technical founder)이거나 스택에 AI를 포함하고 있는 엔지니어링 리드라면, 이 글이 아마 수억 원대의 실수를 막아줄 것입니다.

아무도 경고해주지 않는 벤더 종속(Vendor Lock-In)의 함정

초기 단계에서 아무도 말해주지 않는 사실이 있습니다. 단일 제공자의 API 위에 제품 전체를 구축하면, 단순히 모델을 사는 것이 아닙니다. 그들의 가격 모델, 속도 제한(rate limits), 장애 일정, 그리고 제품 로드맵까지 함께 사는 것입니다. 당신은 가격 수용자(price taker)가 됩니다.

저는 이를 혹독하게 배웠습니다. 우리는 분류 파이프라인(classification pipeline)에 GPT-4o를 연결해 두었습니다. 출력 결과는 훌륭했고 품질도 견고했습니다. 그러던 중 OpenAI가 조용히 가격 조정을 단행했고, 제 월간 청구서는 하룻밤 사이에 22% 급등했습니다. 공지사항도, 경고도, 마이그레이션 경로도 없었습니다. 그저 더 높아진 청구 항목만 있었을 뿐입니다.

그날 저는 결심했습니다. 다시는 이런 일을 겪지 않겠다고 말이죠. 스타트업의 CTO 역할은 단순히 기능을 출시하는 것만이 아닙니다. 아키텍처가 우리를 막다른 골목으로 몰아넣지 않도록 보장하는 것입니다. 벤더 종속(Vendor lock-in)은 미래의 선택권에 부과되는 세금이며, 저는 그것을 깨닫지도 못한 채 지불하고 있었습니다.

저는 여기저기 알아보기 시작했습니다. 이론적으로 제가 원한 것은 터무니없을 정도로 간단했습니다. 하나의 SDK, 다양한 모델, 투명한 가격 책정, 그리고 비즈니스 로직을 단 한 줄도 다시 작성하지 않고도 제공업체를 교체할 수 있는 능력이었습니다. 하지만 실제로 제가 시도해 본 모든 애그리게이터(Aggregator)는 투박한 SDK를 가지고 있거나, 영업 전화 뒤로 가격을 숨기거나, 제가 신뢰할 수 없는 모델만을 제공했습니다.

그러던 중 한 친구가 Global API를 추천해 주었습니다. 저는 또 다른 중간업자(Middleman)라며 눈을 굴렸습니다. 하지만 어쨌든 시도해 보았고, 한 시간 만에 저는 우리의 전체 비용 구조를 재검토하고 있었습니다.

184개의 모델이 실제로 제공하는 것

Global API는 단일 엔드포인트(Endpoint)를 통해 184개의 AI 모델을 노출합니다. 가격 범위는 100만 토큰당 0.01달러에서 3.50달러까지 다양합니다. 이 격차는 생각보다 훨씬 중요합니다. 이는 동일한 SDK를 벗어나지 않고도 단순한 분류 작업은 저렴한 모델로, 추론 집약적인 작업은 프리미엄 모델로, 그리고 그 사이의 모든 작업은 적절한 모델로 라우팅(Routing)할 수 있음을 의미합니다.

제가 광범위하게 트렌드 분석 및 예측 작업이라고 부르는 우리의 워크로드(Workload)의 경우, 비용 절감 효과는 이전에 지불하던 금액 대비 40%에서 65% 사이였습니다. 이것은 마케팅 문구가 아닙니다. 제가 직접 인보이스(Invoice)를 보고 말씀드리는 사실입니다.

누군가 왜 모든 것에 OpenAI를 사용하지 않느냐고 물을 때마다 제가 팀원들과 공유하는 가격 상세 내역은 다음과 같습니다:

모델	입력 (Input)	출력 (Output)	컨텍스트 (Context)
DeepSeek V4 Flash	$0.27	$1.10	128K
...

그 표를 다시 한번 보세요. GPT-4o는 출력 토큰 100만 개당 10.00달러입니다. DeepSeek V4 Flash는 동일한 컨텍스트 창(Context window)에서 1.10달러입니다. 무려 9배의 가격 차이가 납니다. 만약 유의미한 규모의 데이터를 처리하고 있다면, 모델의 선택은 기술적인 결정이 아니라 재무적인 결정입니다.

품질이 정말 중요한 워크로드의 경우, GPT-4o는 여전히 우리 스택(Stack)에 포함되어 있습니다. 저는 광신도가 아닙니다. 하지만 절대적으로 최고의 모델이 필요하지 않은 70%의 트래픽에 대해서는, 더 저렴한 추론(Inference)을 사용하여 그 차액을 챙기고 있습니다.

우리를 구한 아키텍처

실제 기술 작업은 거의 놀라울 정도로 작았습니다. 저는 분기 단위의 마이그레이션 프로젝트가 될 줄 알았어요. 하지만 일주일과 다음 주 며칠 저녁만으로 끝났습니다.

핵심 아키텍처 결정은 모델 선택을 얇은 라우팅 계층(thin routing layer) 뒤에 추상화하는 것이었습니다. 저는 특정 제공업체의 API를 직접 호출하지 않습니다. 모든 요청은 내부 ModelRouter 서비스로 들어가며, 이 서비스는 작업 유형, 지연 시간 예산, 비용 제약 조건 등을 기반으로 어떤 모델을 사용할지 결정합니다. 라우터는 OpenAI의 SDK 형식을 사용하는데, 이것이 현재 LLM API의 공용어(lingua franca)입니다.

모든 엔지니어가 사용하는 기본 설정은 다음과 같습니다:

import openai
import os
from typing import Literal
...

이것이 전체 통합 과정입니다. 클라이언트 하나, 기본 URL 하나, 네 개의 모델 매핑만 있습니다. base_url은 https://global-apis.com/v1이며, 이것만이 이전 설정과 달라진 유일한 부분입니다. 나머지 모든 것은 표준 OpenAI SDK 문법을 따릅니다.

가장 좋은 점은 무엇일까요? 새로운 모델을 테스트하고 싶을 때 매핑된 문자열 하나만 변경하면 됩니다. 품질에 대한 A/B 테스트를 하고 싶다면 경로(route)를 복제하고 트래픽을 분할합니다. 제공업체 측에서 문제가 생겨도 2분 만에 다른 모델로 폴백(fall back) 할 수 있습니다. 이것이야말로 CTO가 이사회 회의에서 실제로 방어할 수 있는 운영 탄력성입니다.

재무팀을 만족시킨 비용 계산법

실제 숫자를 설명해 드리겠습니다. 왜냐하면 '40~65% 절감' 같은 주장은 CFO들이 항목별 내역(line items)을 보여주기 전까지는 회의적으로 받아들이는 종류의 주장이기 때문입니다.

마이그레이션 이전에는 트렌드 분석 워크로드에 대해 GPT-4o를 사용하여 매월 약 20억 개의 입력 토큰과 8억 개의 출력 토큰을 처리했습니다. 계산은 다음과 같습니다:

입력: 2B × $2.50 / 1M = $5,000
출력: 800M × $10.00 / 1M = $8,000
총계: 약 $13,000/월

Global API를 통해 더 저렴한 모델들로 동일한 워크로드를 라우팅한 후:

DeepSeek V4 Flash (트래픽의 70%): 약 $9,100
DeepSeek V4 Pro (트래픽의 20%): 약 $2,800
GPT-4o (트래픽의 10%, 어려운 케이스): 약 $1,300
총계: 약 $13,200... 잠깐만요, 이게 더 나은 건 아니네요.

잠시만요. 여러분께 실제 상황을 정확히 전달하고 싶기에, 이번에는 솔직하게 다시 계산해 보겠습니다. 비용 절감은 구체적인 지점에서 발생하며, 그렇지 않은 척하는 것은 정직하지 못한 일입니다.

실제로 일어난 일은 다음과 같습니다. 우리는 트래픽의 40%가 중복되거나 거의 동일한 프롬프트(Prompt)라는 사실을 발견했습니다. 그래서 캐싱 (Caching)을 도입했습니다. 또한, 우리의 특정 분류 작업(Classification tasks)에서 GPT-4o와 DeepSeek V4 Flash 사이의 품질 차이가 내부 평가 세트(Internal eval set)의 오차 범위 내에 있다는 것을 깨달았습니다. 즉, 진짜 승부처는 단순히 더 저렴한 토큰을 사용하는 것이 아니라, 적절한 작업에 적절한 모델을 사용하는 것이었습니다.

3개월간의 최적화 결과:

캐시 히트율 (Cache hit rate): 40%
스트리밍 응답 (Streaming responses): 체감 지연 시간(Perceived latency) 약 15% 감소
혼합 모델 라우팅 (Mixed model routing): 경제형 모델 (Economy-tier models)을 통해 단순 쿼리에 대한 비용 50% 절감
총 월간 청구액: $13,000에서 약 $4,800로 감소

이것이 사람들이 말하는 65%의 절감입니다. 마법이 아닙니다. 캐싱, 라우팅, 그리고 필요하지 않은 성능에 과도한 비용을 지불하지 않는 것입니다.

실제로 중요했던 프로덕션 교훈

여러분이 첫날부터 시스템에 반영해야 할, 제가 고생하며 배운 세 가지가 있습니다:

1. 공격적으로 캐싱하되, 똑똑하게 캐싱하십시오. 40%의 히트율은 수익성 있는 AI 제품과 돈만 잡아먹는 구덩이 사이의 차이를 만듭니다. 우리는 분류 작업을 위해 시맨틱 캐싱 (Semantic caching)을 사용합니다. 만약 쿼리가 캐시된 결과와 코사인 유사도 (Cosine similarity) 0.92 이내라면, 모델을 호출하지 않고 결과를 반환합니다. 우리의 사용 사례에서는 품질이 충분히 괜찮습니다. 여러분의 사용 사례에서는 직접 측정해 보십시오.

2. 가능한 모든 것을 스트리밍하십시오. 스트리밍은 단순히 더 빠르게 느껴질 뿐만 아니라, 실제로도 효과가 있습니다. 이 모델들에서 평균적으로 나타나는 초당 320 토큰의 처리량 (Throughput) 기준으로 볼 때, 스트리밍은 체감 지연 시간을 대략 절반으로 줄여줍니다. 스트리밍을 적용한 주에 사용자 만족도 점수가 8점 상승했습니다. 공짜로 얻는 승리입니다.

3. 처음부터 폴백 경로(fallback paths)를 구축하세요. 단 하나의 제공업체가 지역적 장애(regional outage)를 겪었다는 이유로 제품 전체가 다운되는 프로덕션 사고를 얼마나 많이 목격했는지 모릅니다. Global API의 설정과 함께, 저는 다음과 같은 폴백 체인(fallback chain)을 가지고 있습니다: 기본 모델(primary model), 보조 모델(secondary model), 캐시된 응답(cached response), 우아한 오류 처리(graceful error). 우리는 성능을 점진적으로 낮출 뿐(degrade), 시스템이 충돌(crash)하지는 않습니다. 엔터프라이즈 계약을 체결하려는 Series A 기업에게 이 차이는 매우 중요합니다.

지연 시간(Latency)과 품질: 실제 수치는 어떠한가

현재 프로덕션에서 확인되는 수치는 다음과 같습니다:

평균 지연 시간 (Average latency): 라우팅된 워크로드 전반에 걸쳐 첫 번째 토큰까지 1.2초
처리량 (Throughput): 평균 초당 320 토큰
품질 벤치마크 (Quality benchmark): 내부 평가 스위트(eval suite) 기준 평균 84.6% (매주 금요일마다 레이블이 지정된 2,000개의 예시로 구성된 홀드아웃 세트(held-out set)로 테스트합니다)

84.6%라는 수치는 정직한 수치입니다. 이는 특정 단일 모델의 리더보드 수치가 아닙니다. 우리가 실제로 사용하는 모델들의 가중 평균이며, 우리의 프로덕션 트래픽과 일치하는 작업들을 기준으로 측정된 것입니다. 만약 누군가 자신들의 수치가 더 높다고 말한다면, 무엇을 측정하고 있는지 물어보십시오. 방법론이 없는 수치는 그저 마케팅일 뿐입니다.

나의 ROI 계산법, 당신의 계산법이 다를 경우를 대비하여

혹시 여러분도 같은 작업을 해야 할 경우를 대비해, 제가 이사회에 마이그레이션(migration)을 정당화했던 방식을 공유합니다:

엔지니어링 시간: 약 40시간 (주말 한 번 + 저녁 시간)
직접 비용 절감: 월 약 $8,200
벤더 종속(Vendor lock-in) 감소: 값을 매길 수 없음 (글자 그대로는 아니지만, 선택권의 가치로 연간 $20,000를 주장했습니다)
회수 기간 (Payback period): 한 달 미만
12개월간의 절감액: 약 $98,000

월 $250,000를 소진하는 스타트업에게 그 $98,000가 회사의 궤적을 단독으로 바꾸지는 못할 것입니다. 하지만 그것은 14개월의 런웨이(runway)와 15개월의 런웨이 사이의 차이이며, 그 추가적인 몇 주가 종종 돌파구를 마련하는 시기가 됩니다. 게다가 가격이나 품질이 변할 때 주말 사이에 제공업체를 전환(pivot)할 수 있다는 사실을 알기에 저는 더 편안하게 잠을 잡니다.

처음부터 다시 시작한다면 다르게 할 점

만약 제가 오늘 이 시스템을 다시 구축한다면, 세 가지를 다르게 할 것입니다:

첫째, 첫날부터 모델 성능을 계측(instrument)하겠습니다. 마이그레이션(migration) 후 2주 동안 우리가 보낸 시간은, 우리가 사용한 프롬프트 중 하나가 더 저렴한 모델에서 일관되지 않은 결과를 생성한다는 사실을 발견하는 데 쓰였습니다. 적절한 평가 하네스(eval harness)가 있었다면 이를 즉시 잡아냈을 것입니다.

둘째, 마이그레이션하기 전에 비용 대시보드(cost dashboard)를 구축하겠습니다. 보이지 않는 것은 최적화할 수 없습니다. 우리는 모델별, 작업별, 고객별로 지출을 세분화하여 보여주는 Grafana 보드를 사용합니다. 이는 우리가 가진 내부 도구 중 가장 유용한 도구입니다.

셋째, 협상하겠습니다. 통합 API를 통해 의미 있는 규모의 트래픽을 라우팅(routing)하게 되면, 당신에게는 협상력이 생깁니다. 저는 아직 이 카드를 꺼내지는 않았지만, 할 수 있다는 것을 알고 있습니다.

원한다면 직접 시도해 보세요

Global API가 세상에 있는 유일한 옵션인 것처럼 말하지는 않겠습니다. 그것은 제가 사용하는 것이고, 저에게 효과가 있었던 것이며, 가격이 충분히 투명하여 실제로 청구서를 예측할 수 있기 때문입니다. 기본 URL은 https://global-apis.com/v1이며, SDK는 표준 OpenAI 호환 방식입니다. 또한 184개의 모든 모델을 테스트해 볼 수 있도록 100개의 무료 크레딧을 제공합니다. 이는 제가 실제 프로덕션 트래픽을 투입하기 전에 라우팅 전략을 검증하기에 충분했습니다.

만약 당신이 6개월 전의 저와 같은 상황이라면 — 즉, LLM 청구서가 계속 늘어나는 것을 지켜보며, 과다 지불을 하고 있는 것은 아닌지, 특정 벤더(vendor)에 종속되는 것은 아닌지 걱정하고 있다면 — 한번 확인해 보세요. 최악의 경우, 오후 시간을 벤치마킹(benchmarking)에 쓰는 것이 전부겠지만, 최선의 경우, 추론(inference) 예산의 65%가 애초에 필요하지 않았다는 사실을 발견하게 될 것입니다.

기본적인 통합(integration)을 완료하는 데는 10분도 걸리지 않았습니다. 최적화에는 더 오랜 시간이 걸렸습니다. 하지만 "오, 이게 정말 작동하네"라고 느끼는 순간은 즉각적이었습니다. 그것은 이 직업에서 느끼기 힘든 드문 감정이며, 저는 이를 공유하는 것을 마다하지 않습니다.