내가 주말 동안 AI API 가격을 비교하며 놀랐던 이유
요약
대규모 AI 서비스 운영 시 발생하는 막대한 API 비용 문제를 해결하기 위해 모델 선택의 다각적 기준을 제시합니다. 단순 토큰 가격 외에도 입력/출력 비용, 컨텍스트 윈도우, p99 지연 시간, 가용성 등을 종합적으로 고려해야 함을 강조합니다.
핵심 포인트
- 단순 토큰 가격 비교를 넘어선 다각적 비용 분석 필요
- p99 지연 시간과 부하 상황에서의 모델 동작 확인 필수
- 컨텍스트 윈도우 크기가 워크플로우 효율성에 미치는 영향
- 가동 시간 및 지역적 가용성을 고려한 장애 조치 설계
솔직히 말씀드리면, 저는 AI 가격에 대해 글을 쓰려고 시작한 것이 아닙니다. 감당할 수 없이 불어난 청구서를 해결하려고 시작했습니다.
제 고객 중 한 명이 GPT-4o를 사용하여 고객 지원 요약 파이프라인 (summarization pipeline)을 운영하고 있었는데, 하루에 약 1,800만 개의 출력 토큰 (output tokens)을 소모하고 있었습니다. 출력 100만 개당 10.00달러를 기준으로 계산하면, 임베딩 (embeddings), 분류 단계 (classification passes), 그리고 타임아웃으로 인한 재시도 트래픽 (retry traffic)을 추가하기 전에도 요약 단계에서만 하루에 180달러가 나갔습니다. 저의 첫 번째 본능은 "캐싱 (caching)을 추가하자"였고, 이를 통해 약 20% 정도를 아낄 수 있었습니다. 하지만 진정한 비용 절감은 다른 모델을 선택하는 것에서 와야 했습니다. 그리고 다른 모델을 선택한다는 것은 특정 벤더의 블로그가 주장하는 내용이 아니라, 2026년 5월 현재 시장 상황이 실제로 어떤지를 파악하는 것을 의미합니다.
그래서 저는 Global API에서 가격 데이터를 가져오고, 커피를 한 잔 마신 뒤, 제가 모든 아키텍처 결정 (architecture decision)을 내릴 때 하는 방식대로 수치를 계산하기 시작했습니다. 스프레드시트, 지연 시간 대시보드 (latency dashboard), 그리고 p99에 대한 건강하지 못한 집착을 가지고 말이죠.
다음은 제가 발견한 내용이며, 이를 대규모로 운영할 때 실제로 중요한 요소인 출력 비용 (output cost), 입력 비용 (input cost), 컨텍스트 윈도우 (context window), 그리고 부하 상황에서의 모델 동작 방식에 따라 순위를 매겼습니다. 모든 수치는 Global API 플랫폼의 2026년 5월 검증된 가격입니다.
나의 방법론: 비용은 이야기의 절반일 뿐이다
대부분의 가격 비교는 "100만 개당 0.25달러가 3.50달러보다 저렴하니, 이걸로 가자"에서 끝납니다. 해커톤 (hackathon)을 운영 중이라면 괜찮습니다. 하지만 프로덕션 (production)을 운영 중이라면 그것은 직무 유기입니다.
고객을 위해 모델을 선택할 때, 저는 최소 다섯 가지 변수를 조율합니다:
- 100만 토큰당 출력 가격 (Output price per million tokens) — 헤드라인 수치
- 100만 토큰당 입력 가격 (Input price per million tokens) — 긴 컨텍스트 워크플로우 (long-context workflows)에서 매우 중요함
- 컨텍스트 윈도우 (Context window) — 채팅에는 32K가 적당하지만, 문서 수집 (document ingestion)에는 128K가 중요함
- 폭발적 부하 상황에서의 p99 지연 시간 (p99 latency under burst load) — 99번째 백분위수 (99th percentile)가 사용자 경험을 망칩니다
- 가동 시간 (Uptime) 및 지역적 가용성 (regional availability) — 단 하나의 PoP (Point of Presence)에서만 작동한다면, 당신의 장애 조치 (failover) 시나리오는 비참해질 것입니다
저는 48시간 동안 두 개의 리전 (region)에 걸쳐 10,000개의 요청으로 구성된 합성 워크로드 (synthetic workload)를 사용하여 각 모델을 테스트했으며, 콜드 스타트 지연 시간 (cold-start latency), p50, p95, p99 및 에러율 (error rate)을 측정했습니다. 전체 비용 표는 Global API의 가격 책정 엔드포인트 (pricing endpoint)에서 가져왔지만, 신뢰성 수치는 제가 직접 구축한 하네스 (harness)에서 얻은 것입니다.
스포일러: 가장 저렴한 모델이 항상 가장 저렴한 모델인 것은 아닙니다.
계층 (Tiers)을 구성하는 방식
모든 것을 단순 가격순으로 나열하는 대신, 클라우드 배포 (cloud deployment) 맥락에서 모델들이 _실제로 무엇을 잘하는지_에 따라 그룹화했습니다. 출력 100만 토큰당 0.01달러인 99.9% SLA 모델은 명확한 업타임 (uptime) 기록이 없는 0.10달러짜리 모델보다 더 가치가 있습니다.
Tier 1: 서브 페니 브리게이드 (The Sub-Penny Brigade, 출력 100만 토큰당 $0.01–$0.10)
이 모델들은 분류 (classification), 의도 탐지 (intent detection), 라우팅 결정 (routing decisions), 로그 요약 (log summarization) 등 높은 지능이 필요하지 않은 모든 작업에 제가 사용하는 모델들입니다.
| 모델 (Model) | 제공업체 (Provider) | 출력 $/M | 입력 $/M | 컨텍스트 (Context) | 용도 |
|---|---|---|---|---|---|
| Qwen3-8B | Qwen | $0.01 | $0.01 | 32K | 테스트 트래픽, 카나리 배포 (canary deploys) |
| ... |
솔직한 진실을 말씀드리자면, 출력 100만 토큰당 0.01달러 수준에서 이 모델들은 사실상 무료나 다름없습니다. 저는 스모크 테스트 (smoke test) 용도로 트래픽의 5%를 이 모델들로 라우팅합니다. 만약 이 모델들이 실패하면 제 메인 모델도 실패할 것이고, 그 과정에서 소모된 예산은 거의 없습니다. 이것이 제가 좋아하는 저렴한 보험 같은 방식입니다.
함정은 일부 모델의 입력 (input) 가격이 점진적으로 상승한다는 점입니다. GLM-4.5-Air는 입력 100만 토큰당 0.07달러를 부과하는데, 이는 출력 가격의 7배입니다. 짧은 프롬프트 (prompt)에는 괜찮지만, 긴 시스템 메시지 (system message)가 포함된 작업에는 불리합니다. Qwen2.5-14B는 그 반대입니다. 입력 $0.05/M, 출력 $0.10/M로, 매 호출마다 컨텍스트를 가득 채워야 하는 검색 중심 (retrieval-heavy) 워크로드에 더 나은 선택이 됩니다.
Tier 2: 스위트 스팟 (The Sweet Spot, 출력 100만 토큰당 $0.10–$0.30)
이곳이 제가 대부분의 비용을 지출하는 구간입니다. 왜냐하면 이곳이 품질 대비 비용 효율 (quality-to-cost ratio)이 실제로 작동하는 지점이기 때문입니다.
| 모델 (Model) | 제공업체 (Provider) | 출력 (Output) $/M | 입력 (Input) $/M | 컨텍스트 (Context) | 나의 의견 (My Take) |
|---|---|---|---|---|---|
| Step-3.5-Flash | StepFun | $0.15 | $0.13 | 32K | 이 계층에서 가장 빠른 p99 |
| ... |
DeepSeek V4 Flash에 대해 구체적으로 말씀드리겠습니다. 지난 6개월 동안 제 업무의 주력 모델(workhorse)이었기 때문입니다. 출력 1M 토큰당 $0.25, 128K 컨텍스트를 제공하며, 고객이 요청하는 요약(summarization) 및 추출(extraction) 작업의 약 90%를 처리합니다. us-east-1 및 ap-southeast-1 지역에서 진행한 p99 테스트 결과, 일관되게 800ms 미만의 p99 지연 시간(latency)을 기록했습니다. 솔직히 말해서 이는 동일한 워크로드에서 GPT-4o가 보여준 속도보다 빠릅니다. 출력 품질(output quality)은 플래그십 모델(flagship models)에 충분히 근접하여, 제가 모델을 교체했을 때 고객도 눈치채지 못했습니다. 하지만 고객이 눈치챈 것은 비용(bill)이었습니다. 동일한 볼륨 기준으로 월 약 $5,400에서 약 $135로 급감했기 때문입니다.
ERNIE-Speed-128K는 제가 사람들에게 계속해서 이야기하는 다크호스(dark horse)입니다. 128K 컨텍스트 창을 가지면서 출력 1M 토큰당 $0.20, 입력 1M 토큰당 $0.00라는 가격은 거의 터무니없는 수준입니다. 저는 입력 토큰의 비중이 압도적인 문서 인제스션 파이프라인(document ingestion pipelines)에 이 모델을 사용합니다. 만약 100K 토큰 분량의 문서 요약을 수행하면서 입력 토큰당 비용을 지불하고 있다면, 이 모델은 사실상 무료나 다름없습니다.
또한 제가 강조하고 싶은 영리한 카테고리가 있는데, 바로 GA 라우팅(Routing) 모델입니다. 출력 1M 토큰당 $0.13인 Ga-Economy와 $0.20인 Ga-Standard는 단일 모델이 아닙니다. 요청(request)마다 최적의 기반 모델을 선택하는 라우팅 계층(routing layers)입니다. 일주일 동안 Ga-Economy를 테스트해 본 결과, 각 쿼리(query)에 대해 실행 가능한 가장 저렴한 모델을 일관되게 선택한다는 것을 확인했습니다. 이는 DeepSeek V4 Flash를 직접 실행할 때보다 요청당 실질 비용(effective per-request cost)을 15-20% 추가로 낮춰준다는 의미입니다. 요청의 복잡도가 크게 변하는 멀티 테넌트 SaaS(multi-tenant SaaS)를 구축하고 있다면 이 모델들을 살펴보시기 바랍니다.
Tier 3: 중간 가격대 ($0.30–$0.80/M 출력)
비용보다 품질이 더 중요한 경우 — 코딩 어시스턴트(coding assistants), 복잡한 추출(complex extraction), 혹은 잘못된 출력(bad outputs)이 실제 다운스트림 비용(downstream cost)을 발생시키는 모든 경우입니다.
| 모델 (Model) | 제공자 (Provider) | 출력 (Output) $/M | 입력 (Input) $/M | 컨텍스트 (Context) | 비고 (Notes) |
|---|---|---|---|---|---|
| DeepSeek-V3.2 | DeepSeek | $0.38 | $0.35 | 128K | DeepSeek의 최신 베이스라인 (baseline) |
| ... |
저는 내부적으로 코딩 코파일럿 (coding copilot)을 운영하고 있으며, 이는 이 등급 (tier)에 속합니다. V4 Flash에서 V4 Pro로의 품질 도약은 실재합니다. 다단계 리팩토링 (multi-step refactors)에 대한 저의 내부 벤치마크 (benchmark) 기준으로 약 12% 더 나은 성능을 보였지만, 비용은 3.1배 증가했습니다. 그래서 저는 쉬운 작업에는 V4 Flash를 사용하고, 난이도 임계값 (difficulty threshold)을 넘는 요청에는 V4 Pro를 예약하여 사용합니다. 이러한 방식의 계층적 라우팅 (tiered routing)이 돈을 낭비하지 않으면서 두 마리 토끼를 모두 잡는 방법입니다.
이 등급의 멀티모달 모델 (multimodal models) (Qwen3-VL-32B, Qwen3-Omni-30B, GLM-4.6V)은 대규모 OCR 또는 이미지 분류 (image classification)를 수행한다면 주목할 가치가 있습니다. 출력 비용이 $0.52/M인 Qwen3-Omni-30B는 저의 1만 개 문서 이미지 파이프라인 (image pipeline)을 GPT-4o vision 비용의 약 1/20 수준으로 처리했습니다.
플래그십 등급 (The Flagship Tier, 출력 $2.00–$3.50/M)
대부분의 프로덕션 워크로드 (production workloads)에 있어 이 모델들은 과합니다 (overkill). 하지만 추론 중심의 에이전트 (reasoning-heavy agent)나 복잡한 작업을 원샷 (one-shot)으로 수행해야 하는 코딩 모델을 구축하고 있다면, 때때로 이 모델들이 필요합니다.
| 모델 (Model) | 제공자 (Provider) | 출력 (Output) $/M | 입력 (Input) $/M | 컨텍스트 (Context) |
|---|---|---|---|---|
| DeepSeek-R1 | DeepSeek | $2.50 | $0.55 | 128K |
| ... |
저의 경험 법칙 (rule of thumb)은 다음과 같습니다: 만약 출력 비용으로 $2.00/M 이상을 지불하고 있다면, 해당 요청은 차선책(fallback)으로 사람에게 비용을 지불해서라도 수행할 만큼 충분한 비즈니스 가치를 생성해야 합니다. 저는 다운스트림 가치 (downstream value)가 높을 때, 즉 엔터프라이즈 계정의 리드 스코어링 (lead scoring)이나 복잡한 계약 분석 (complex contract analysis)과 같은 경우에만 이 모델들로 라우팅합니다. 플래그십 수준의 추론 (flagship reasoning)이 필요하지 않은 95%의 트래픽에 대해서는, 이 비용 차이가 곧 순이익 (margin)이 됩니다.
신뢰성에 관한 짧은 언급 (A Quick Word on Reliability)
가격표가 알려주지 않는 사실이 하나 있습니다. 초저가 계층 (ultra-budget tier)은 가동 시간 (uptime)의 변동성이 더 큽니다. 제가 48시간 동안 부하 테스트 (load test)를 진행했을 때, 100만 토큰당 0.10달러 미만인 모델들의 에러율 (error rate)은 0.02% (Qwen3-8B)에서 0.4% (이름을 밝히지 않을 한 모델) 사이였습니다. 엔터프라이즈 규모 (enterprise scale)에서 0.4%의 에러율은 재시도 폭풍 (retry storm)이 몰려오고 있음을 의미하며, 재시도 폭풍은 실제 비용이 예상 비용의 2~3배가 된다는 것을 의미합니다.
DeepSeek V4 Flash, Qwen3-32B, 그리고 Hunyuan-Pro는 테스트 기간 동안 모든 지역에서 1초 미만의 일관된 p99 지연 시간 (latency)을 유지하며 0.05% 미만의 에러율을 기록했습니다. 이것이 제가 모델을 프로덕션 배포 (production deployment)용으로 추천하기 전에 설정하는 신뢰성 기준입니다.
멀티 리전 가용성 (Multi-region availability) 또한 중요합니다. 만약 모델이 단 하나의 리전에만 존재하고 장애 조치 (failover)가 필요한 상황이라면, 리전 간 데이터 전송 (cross-region data transfer) 비용을 지불하거나 다운타임 (downtime)을 감수해야 합니다. Tier 2 이상의 대부분 모델은 글로벌 API (Global API) 상에서 멀티 리전 배포를 지원하며, 이것이 제 장애 조치 설정이 실제로 작동하게 만든 핵심이었습니다.
코드: 비용 인지형 라우팅 계층 (A Cost-Aware Routing Layer)
제가 실제로 프로덕션에서 사용하는 라우팅 패턴입니다. 화려하지는 않습니다. 난이도 점수 (difficulty score)에 따라 요청을 서로 다른 모델로 보내는 간단한 가중치 기반 라우터 (weighted router)입니다. 이런 것은 구축하는 데 한 시간 정도 걸리지만, 일주일 안에 그 비용을 뽑아냅니다.
python
import os
...
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기