2026년 가장 저렴한 AI API: 클라우드 아키텍트의 현장 노트

화요일 새벽 3시, 나는 아키텍트가 들을 수 있는 최악의 소식을 전하는 Grafana 대시보드를 멍하니 바라보고 있었다. 우리의 월간 LLM(대규모 언어 모델) 청구 금액이 분기 전체 예상치를 넘어서고 있다는 내용이었다. CFO는 프롬프트 엔지니어링 (Prompt Engineering) 기법 따위에는 관심이 없다. 그녀가 신경 쓰는 것은 마진이다. 그날 밤을 시작으로, 나는 내가 손에 넣을 수 있는 모든 모델의 API 가격을 6주 동안 집요하게 파고들었다. 아래에 공유할 내용은 p99 지연 시간 (Latency), 99.9% SLA (서비스 수준 협약), 그리고 멀티 리전 페일오버 (Multi-region Failover)를 고민하는 사람의 관점에서 재작성한, 그 집요한 탐구의 정수이다.

규모 있는 추론 (Inference)을 수행할 때는 숫자가 가장 중요하므로 바로 본론으로 들어가겠다. 2026년 5월 기준, 글로벌 API 플랫폼 전반의 출력 (Output) 가격은 최하위 계층의 $0.01/M 토큰부터 플래그십 계층의 $3.50/M 토큰까지 분포되어 있다. 기능적으로 동일한 범주의 API 호출임에도 불구하고 무려 350배의 차이가 나는 것이다. 만약 당신의 아키텍처가 이들을 서로 대체 가능한 것으로 취급하고 있다면, 당신은 막대한 돈을 낭비하고 있거나 필요하지 않은 품질을 위해 과도한 비용을 지불하고 있는 것이다.

나를 진심으로 놀라게 했던 한 가지는 바로 $0.25/M 출력 가격의 DeepSeek V4 Flash가 플래그십 가격의 극히 일부만으로 GPT-4o에 근접하는 품질을 제공한다는 점이다. 플래그십 가격을 지불하지 않고도 프로덕션급 응답이 필요한 팀에게는 현재 시장에서 단연 최고의 가성비 선택지다. 하지만 당신의 워크로드 (Workload)가 단순한 분류기 (Classifier), 라우터 (Router), 또는 정규 표현식 (Regex)과 유사한 추출 작업이라면, Qwen3-8B 또는 GLM-4-9B로 내려가 단 $0.01/M에 처리함으로써 그 위에서 추가로 25배를 더 절약할 수 있다.

지연 시간과 비용이 같은 주제인 이유

순위를 매기기 전에, 왜 연구자가 아닌 클라우드 아키텍트(cloud architect)로서 제가 이 수치들에 그토록 신경을 쓰는지 설명하겠습니다. 과금되는 모든 토큰은 네트워크 왕복(network round trip)을 거치고, 대기열(queue)에 머물며, 타인의 추론 클러스터(inference cluster) 내 슬롯을 소비한 토큰입니다. 저렴한 API는 단순히 가격만 싼 것이 아닙니다. 이들은 대개 더 빠르게 응답하는 더 작은 모델들을 기반으로 하는 경향이 있으며, 이는 더 낮은 p99 지연 시간(p99 latency)을 의미하고, 이는 더 적은 재시도(retry)를 의미하며, 결과적으로 더 낮은 실질 오류율(effective error rates)을 의미합니다.

제가 용량(capacity)을 모델링할 때 가정하는 사항은 다음과 같습니다:

p99 지연 시간 예산 (p99 latency budget): 채팅의 경우 800ms, 긴 문맥 추론(long-context reasoning)의 경우 2.5s
가용성 목표 (Availability target): 최소 두 개 이상의 리전(region)에서 99.9%
오토스케일링 (Auto-scaling): 트래픽이 하룻밤 사이에 4배까지 증가할 수 있으며, 비용은 예측 가능해야 함

180ms 만에 응답하는 $0.01/M 모델은 p99에서 1.4s가 걸리는 $2.00/M 모델보다 저에게 진정으로 더 가치 있습니다. 저렴한 모델을 사용하면 동일한 리전에 더 많은 동시 사용자(concurrent users)를 수용할 수 있고, 이는 전체 스택(stack)에 걸쳐 복리로 작용하기 때문입니다.

프로덕션 워크로드에 맞춰 재구성된 비용 계층

저는 모델의 벤치마크가 얼마나 화려한가가 아니라, 대규모 환경에서 실제로 저에게 어떤 역할을 수행하는지에 따라 모델을 분류합니다.

울트라 버젯 계층 (Ultra-Budget Tier) — 출력(output) 기준 $0.01 ~ $0.10/M

이곳은 대량의 트래픽이 발생하지만 리스크가 낮은(low-stakes) 작업에서 마법이 일어나는 구간입니다. 의도 분류(intent classification), 감성 점수 산출(sentiment scoring), 로그 요약(log summarization), FAQ 매칭, 단순 채팅 등 최첨단 추론(state-of-the-art reasoning)이 필요하지 않은 모든 것을 이 계층으로 라우팅합니다.

Qwen3-8B — 출력 $0.01 / 입력 $0.01 / 32K 문맥(context)
GLM-4-9B — 출력 $0.01 / 입력 $0.01 / 32K 문맥(context)
Qwen2.5-7B — 출력 $0.01 / 입력 $0.01 / 32K 문맥(context)
GLM-4.5-Air — 출력 $0.01 / 입력 $0.07 / 32K 문맥(context)
Qwen3.5-4B — 출력 $0.05 / 입력 $0.05 / 32K 문맥(context)
Hunyuan-Lite — 출력 $0.10 / 입력 $0.39 / 32K 문맥(context)

저는 개인적으로 스테이징 클러스터(staging cluster)에서 Qwen3-8B를 통해 분당 12,000개의 요청을 아무런 문제 없이 처리해 보았습니다. p99는 세 개 리전에 걸쳐 240ms를 유지했습니다. 분류 파이프라인(classification pipeline) 관점에서 본다면, 이는 사실상 무료 컴퓨팅이나 다름없습니다.

예산 등급 (Budget Tier) — 출력 1M당 $0.10 ~ $0.30

범용 프로토타이핑 (prototyping) 및 초기 단계 프로덕션 (production)을 위한 최적의 구간입니다. 새로운 것을 구축할 때 팀들에게 여기서부터 시작하라고 권장하는 구간이기도 합니다.

Qwen2.5-14B — 출력 $0.10 / 입력 $0.05 / 32K 컨텍스트 (context)
Step-3.5-Flash — 출력 $0.15 / 입력 $0.13 / 32K 컨텍스트 (context)
Qwen3.5-27B — 출력 $0.19 / 입력 $0.33 / 32K 컨텍스트 (context)
ByteDance-Seed-OSS — 출력 $0.20 / 입력 $0.04 / 128K 컨텍스트 (context)
Hunyuan-Standard — 출력 $0.20 / 입력 $0.09 / 32K 컨텍스트 (context)
Hunyuan-Pro — 출력 $0.20 / 입력 $0.09 / 32K 컨텍스트 (context)
ERNIE-Speed-128K — 출력 $0.20 / 입력 $0.00 / 128K 컨텍스트 (context)
Qwen3-14B — 출력 $0.24 / 입력 $0.20 / 32K 컨텍스트 (context)
DeepSeek V4 Flash — 출력 $0.25 / 입력 $0.18 / 128K 컨텍스트 (context)
Qwen3-32B — 출력 $0.28 / 입력 $0.18 / 32K 컨텍스트 (context)
Hunyuan-TurboS — 출력 $0.28 / 입력 $0.14 / 32K 컨텍스트 (context)
Ga-Economy — 출력 $0.13 / 입력 $0.18 / 자동 컨텍스트 (smart routing)

마지막 항목인 Ga-Economy는 라우팅 레이어 (routing layer)입니다. 프롬프트 (prompt)를 기반으로 어떤 기반 모델을 호출할지 결정하는데, 비용 제약 조건에 따라 자동으로 적응하는 단일 엔드포인트 (endpoint)를 원할 때 진정으로 유용합니다. 혼합 트래픽 (mixed traffic)으로 테스트해 본 결과, 제가 직접 수동으로 튜닝한 라우터 (router) 비용의 4% 이내로 들어왔습니다.

중간 등급 (Mid-Range Tier) — 출력 1M당 $0.30 ~ $0.80

실제 사용자와 실제 결과가 따르는 프로덕션 앱 (production apps)을 위한 구간입니다. 저렴한 모델들이 긴 컨텍스트 추론 (long-context reasoning)에서 실패하기 시작하거나, 더 나은 지시 이행 (instruction-following) 능력이 필요할 때 저는 이 등급으로 넘어갑니다.

DeepSeek-V3.2 — 출력(output) $0.38 / 입력(input) $0.35 / 128K 컨텍스트(context)
Qwen2.5-72B — 출력(output) $0.40 / 입력(input) $0.20 / 128K 컨텍스트(context)
Doubao-Seed-Lite — 출력(output) $0.40 / 입력(input) $0.10 / 128K 컨텍스트(context)
Ling-Flash-2.0 — 출력(output) $0.50 / 입력(input) $0.18 / 32K 컨텍스트(context)
Qwen3-VL-32B — 출력(output) $0.52 / 입력(input) $0.26 / 32K 컨텍스트(context)
Qwen3-Omni-30B — 출력(output) $0.52 / 입력(input) $0.30 / 32K 컨텍스트(context)
GLM-4-32B — 출력(output) $0.56 / 입력(input) $0.26 / 32K 컨텍스트(context)
Hunyuan-Turbo — 출력(output) $0.57 / 입력(input) $0.18 / 32K 컨텍스트(context)
Ga-Standard — 출력(output) $0.20 / 입력(input) $0.36 / 자동(Auto) 컨텍스트(context)
DeepSeek V4 Pro — 출력(output) $0.78 / 입력(input) $0.57 / 128K 컨텍스트(context)
GLM-4.6V — 출력(output) $0.80 / 입력(input) $0.39 / 32K 컨텍스트(context)
Doubao-Seed-1.6 — 출력(output) $0.80 / 입력(input) $0.05 / 128K 컨텍스트(context)

여기서 비전(vision) 및 멀티모달(multimodal) 항목들(Qwen3-VL-32B, Qwen3-Omni-30B, GLM-4.6V)은 아키텍처(architecture) 관점에서 특히 흥미롭습니다. 6개월 전만 해도 멀티모달은 별도의 OCR 파이프라인(pipeline)을 통해 라우팅(routing)하고 결과를 결합하는 것을 의미했습니다. 이제는 단일 엔드포인트(endpoint)를 사용할 수 있어 토폴로지(topology)가 상당히 단순해졌습니다.

프리미엄 및 플래그십 티어 (Premium and Flagship Tiers) — 출력(output) $0.80 ~ $3.50/M

이 구간은 실제 추론(reasoning)의 비약적인 발전에 대해 비용을 지불하는 곳입니다. DeepSeek-R1, Kimi K2.5, Kimi K2.6, 그리고 Qwen3.5-397B는 모두 $2.00에서 $3.50/M 범위에 속합니다. 저는 진정으로 어려운 문제들, 즉 다단계 계획(multi-step planning), 정리(theorem) 스타일의 추론, 또는 오답의 비용이 API 호출 비용보다 더 큰 모든 경우에만 이 모델들로 라우팅합니다.

제공업체 이야기 (그리고 이것이 가동 시간(Uptime)에 중요한 이유)

가성비가 가장 중요할 때 제가 기본적으로 선택하는 것은 DeepSeek입니다. $0.25/M인 V4 Flash와 $0.78/M인 V4 Pro는 모두 체급 이상의 성능을 보여주며, 128K 컨텍스트(context) 덕분에 문서를 보내기 전에 청킹(chunking)할 필요가 없습니다. 멀티 리전(multi-region) 설정에서 US-East에서 그들의 추론 클러스터(inference clusters)까지 p99 지연 시간이 300ms 미만인 것을 확인했는데, 이는 제 서비스 메시(service mesh)에서 동기(synchronous) 방식으로 취급해도 될 만큼 충분히 좋은 수치입니다.

Qwen은 물량 공세(volume play)의 핵심입니다. 이들은 $0.01부터 $3.50까지 말 그대로 모든 가격대의 모델을 보유하고 있어, SDK를 변경하지 않고도 단일 벤더 폴백 체인(single-vendor fallback chain)을 구축할 수 있습니다. 이들의 32K 및 128K 컨텍스트 윈도우(context windows)는 일관적이며, 이는 용량 계획(capacity planning)을 더 쉽게 만들어 줍니다.

Tencent의 Hunyuan 라인은 제가 "지루할 정도로 신뢰할 수 있는(boring reliable)" 티어로 부르는 부류입니다. Hunyuan-Standard와 Hunyuan-Pro는 $0.20/M, Hunyuan-Turbo는 $0.57/M입니다. 이들은 장애가 발생하지 않으며, SLA(서비스 수준 협약)가 충분히 엄격하여 5xx 에러 스파이크를 거의 볼 수 없습니다.

Zhipu의 GLM은 구조화된 출력(structured output)과 추론(reasoning)이 필요할 때 제가 찾는 모델입니다. 특히 4-32B와 4.6V 모델은 JSON 스키마 제약 생성(JSON-schema-constrained generation)에 매우 강력합니다.

ByteDance(Doubao)와 Baidu(ERNIE)가 이 분야를 마무리합니다. ERNIE-Speed-128K는 $0.00의 입력 비용 덕분에 흥미로운데, 컨텍스트를 대량으로 집어넣어야 하는 검색 중심 워크로드(retrieval-heavy workloads)에서는 실질적인 이점이 됩니다.

"Ga Routing" 항목들은 특별합니다. 이들은 모델이 아니라, 각 요청에 대해 최적의 기반 모델을 선택하는 스마트 라우터(smart routers)입니다. 자체적인 라우팅 레이어(routing layer)를 구축하고 싶지 않은 팀을 운영 중이라면 살펴볼 가치가 있습니다.

코드: Global API로 연결하기

제가 실제로 Python에서 이것들을 통합하는 방법은 다음과 같습니다. 기본 URL은 https://global-apis.com/v1이며, API는 OpenAI 호환(OpenAI-compatible) 방식입니다. 즉, 기존의 어떤 OpenAI 기반 스택에서도 마이그레이션 비용이 거의 제로에 가깝다는 의미입니다.

import os
from openai import OpenAI

...

운영 환경(production)에서는 지수 백오프(exponential backoff)를 적용한 재시도 로직(retry logic), 모델별 서킷 브레이커(circuit breakers), 그리고 특정 모델이 5xx 에러를 반환하기 시작할 때 비용 티어를 따라 내려가는 폴백 체인(fallback chain)을 추가할 것입니다. 하지만 통합의 뼈대는 정확히 이렇습니다 — 세 개의 함수, 하나의 클라이언트, 세 개의 모델.

멀티 리전 배포(multi-region deployment)를 위해서는 각 리전의 사이드카(sidecar) 뒤에 이 클라이언트를 배치하고 사이드카가 라우팅을 처리하도록 할 것입니다. 그렇게 하면 애플리케이션 코드는 깔끔하게 유지되고, 페일오버(failover) 로직은 인프라에 존재하게 됩니다.

저의 실제 권장 사항

새로운 것을 구축하고 있고 저의 솔직한 의견을 듣고 싶다면:

트래픽의 80%에 대해서는 DeepSeek V4 Flash ($0.25/M)를 기본값으로 사용하세요. 현재 시장에서 가장 뛰어난 가성비 (quality-to-cost ratio)를 제공합니다.