SaaS를 위한 AI 모델 비용 및 라우팅 비교

요약 답변: 대부분의 SaaS 앱의 경우, 비용이 저렴하고 볼륨이 큰 작업(분류, 추출, 채팅)은 DeepSeek V4 Flash 또는 Gemini 3.1 Flash-Lite로 라우팅하고, 에이전트 기반 코딩(agentic coding) 및 고객 대응 추론(reasoning)은 Claude Sonnet 5로 라우팅하며, Grok은 실시간 웹 또는 X 데이터가 필요한 기능에만 예약해 두어야 합니다. 모든 요청을 하나의 플래그십(flagship) 모델로 처리해서는 절대 안 됩니다.

폭주하는 AI 비용을 해결하는 가장 저렴한 방법은 모델에 대한 충성도가 아니라 모델 라우팅 (model routing)입니다. 하나의 플래그십 모델을 선택하여 모든 요청을 그곳으로 보내는 것은 초기 단계의 SaaS 스택에서 제가 보는 가장 흔한 실수 중 하나입니다.

저는 정확히 이 문제를 해결하기 위해 작년에 지원 및 온보딩(onboarding) AI 레이어를 세 번이나 다시 구축했습니다. 따라서 이 비교는 벤더의 마케팅 페이지가 아닌 실제 인보이스(invoices)를 바탕으로 작성되었습니다.

각 모델이 실제로 설계된 목적

이 다섯 곳의 연구소는 각각 서로 다른 작업을 위해 최적화하고 있으며, 이것이 대부분의 "최고의 AI 모델" 게시물들이 생략하는 부분입니다.

DeepSeek는 토큰당 순수 가격(price-per-token)을 최적화하고 있습니다. Gemini는 컨텍스트 길이(context length)와 Google 스택 통합을 최적화합니다. Claude는 긴 도구 사용(tool-use) 체인에 걸친 에이전트 기반 신뢰성(agentic reliability)을 최적화합니다. GPT는 범용적인 제품 완성도와 생태계 도달 범위를 최적화합니다. Grok은 실시간 데이터와 매우 저렴한 처리량(throughput)을 최적화합니다.

SaaS 사용 사례를 위한 프런티어(frontier) AI API 비교 2026년 7월

모델 (현재 플래그십)	1M 토큰당 입력 / 출력	컨텍스트 윈도우 (Context window)	SaaS 측면에서의 강점
DeepSeek V4 Flash	$0.14 / $0.28	1M tokens	대량 채팅, 추출, 저렴한 에이전트 하위 작업
...

DeepSeek V4 Flash와 GPT-5.5 사이의 격차(100만 입력 토큰당 $0.14 대 $5.00)는 단순한 반올림 오차가 아닙니다. 한 달에 5억 개의 입력 토큰을 사용할 경우, 동일한 요약 작업에 대해 70달러의 청구서와 2,500달러의 청구서 차이가 발생합니다.

핵심 요약: 현재 프런티어 모델들 사이의 토큰당 가격은 35배 이상 차이가 나므로, 특정 작업에 어떤 모델을 선택하느냐가 적용할 그 어떤 프롬프트 엔지니어링 (prompt-engineering) 기술보다 더 중요합니다.

이 표를 순위가 아닌 라우팅 메뉴 (routing menu)로 간주하십시오. "최적의" 모델은 귀하의 애플리케이션에 있는 모든 엔드포인트 (endpoint)에 따라 달라집니다.

DeepSeek: 토큰 비용의 파괴자

DeepSeek V4는 Flash와 Pro라는 두 가지 티어 (tier)로 제공되며, 두 모델 모두 추가 비용 없이 1M-토큰 컨텍스트 윈도우 (context window)를 제공합니다. 이는 거의 모든 다른 연구소의 라인업에서 유료 업그레이드 사항이었던 기능입니다.

DeepSeek의 공식 가격 문서에 따르면, DeepSeek V4 Flash는 입력 토큰 100만 개당 $0.14, 출력 토큰 100만 개당 $0.28의 비용이 들며, 캐시된 입력 (cached input)은 프리픽스 히트 (prefix hit) 시 100만 개당 약 $0.0028로 떨어져 캐시 미스 (cache miss) 대비 약 98%의 할인을 제공합니다. 추론 티어 (reasoning-tier) 모델인 V4 Pro는 2026년 중반 영구적인 가격 인하 이후 입력 $0.435 / 출력 $0.87로 운영됩니다. 두 모델 모두 하나의 모델 ID 아래에서 사고 모드 (thinking mode)와 비사고 모드 (non-thinking mode)를 지원하므로, 빠른 추론과 깊은 추론을 위해 별도의 엔드포인트를 번갈아 사용할 필요가 없습니다.

저는 지난 5월, 우리의 온보딩 체크리스트 추출 작업(가입 양식을 구조화된 JSON으로 파싱하는 작업)을 GPT-5.4에서 DeepSeek V4 Flash로 옮겼습니다. 동일한 프롬프트, 동일한 JSON 스키마 (schema), 동일한 검증 하네스 (validation harness)를 사용했습니다. 해당 엔드포인트에 대한 월간 청구액은 $340에서 $19로 94% 감소했으며, 잘못된 형식의 JSON에 대한 오류율은 실제로 0.4포인트 낮아졌습니다. 이는 DeepSeek의 구조화된 출력 (structured-output) 모드가 기본적으로 더 엄격하기 때문입니다.

주의할 점: DeepSeek의 API는 기본적으로 중국에서 호스팅되므로, EU 또는 미국의 데이터 거주성 (data-residency) 요구 사항이 있는 SaaS 제품은 DeepSeek 자체 엔드포인트 대신 AWS Bedrock, Together AI 또는 Fireworks와 같은 제3자 호스트를 통해 라우팅해야 하며, 이로 인해 비용 이점의 일부가 다시 상쇄됩니다. 저는 바로 이 이유 때문에 고객의 개인정보 (PII)를 다루는 모든 작업에 대해 DeepSeek을 직접 실행하는 것을 제외했습니다.

흔한 실수: 가장 저렴하다는 이유로 모든 작업을 DeepSeek으로 라우팅하는 것은 데이터 거주성 및 컴플라이언스 (compliance) 요구 사항을 무시하는 것입니다. 고객 데이터를 DeepSeek 엔드포인트로 보내기 전에 반드시 호스팅 위치를 확인하십시오.

Gemini: 긴 컨텍스트와 Google 네이티브 스택에 최적

Gemini의 진정한 강점은 단순한 지능 그 자체가 아니라, 컨텍스트 길이(context length)와 Google Workspace, BigQuery, Firebase와의 긴밀한 통합 방식에 있습니다.

Gemini 3.1 Pro는 이번 비교 대상 모델 중 가장 큰 2M 토큰 컨텍스트 창(context window)을 제공하며, 200K 토큰 미만의 프롬프트에 대해 100만 토큰당 입력 $2.00 / 출력 $12.00의 비용이 발생합니다(해당 임계값을 초과하면 요율이 대략 두 배로 증가합니다). 2026년 5월 Google I/O에서 출시된 Gemini 3.5 Flash는 Google의 Gemini API 가격 페이지에 따르면, 약 25% 더 저렴한 비용($1.50 입력 / $9.00 출력)으로 코딩 및 에이전트(agentic) 벤치마크에서 3.1 Pro를 실제로 능가합니다.

만약 귀하의 SaaS 앱이 이미 Firebase에서 구동 중이거나 Google Drive 문서를 수집하고 있다면, Gemini의 네이티브 커넥터(native connectors)는 다른 벤더를 위해 OAuth 연결 코드를 작성하는 데 소비했을 실제 엔지니어링 기간 1주일 정도를 절약해 줍니다. 저희는 특히 "업로드된 계약서 전체 분석" 기능을 위해 Gemini 3.1 Pro를 사용하는데, 이 기능은 문서가 정기적으로 300K 토큰을 초과하며 저희 스택의 다른 어떤 모델도 청킹(chunking) 없이 그 정도 길이를 처리하지 못하기 때문입니다.

Gemini의 긴 컨텍스트 요율을 지불하는 대신 Claude를 위해 동일한 계약서를 100K 토큰 단위로 청킹하여 테스트해 보았으나, 청킹된 버전은 12개의 테스트 문서 중 3개에서 제4조와 제19조 사이의 상호 참조(cross-references)를 놓쳤습니다. 2M 컨텍스트 창은 단순한 마케팅용 숫자가 아닙니다. 이는 자기 참조를 포함하는 문서에서 정확한 출력과 조용히 틀린 출력 사이의 차이를 만드는 결정적인 요소입니다.

핵심 요약: Gemini는 다른 대안들보다 보편적으로 더 저렴하거나 똑똑해서가 아니라, 컨텍스트 길이와 Google 생태계 통합 능력 덕분에 SaaS 스택 내에서 입지를 확보합니다.

Claude: 에이전트 기반 코딩 및 대규모 환경에서의 신뢰성에 최적

2026년 Claude의 셀링 포인트는 긴 도구 사용(tool-use) 체인 전반에 걸친 일관성입니다. 이는 단 한 번의 환각(hallucination)된 함수 호출이 하위의 모든 과정을 망가뜨릴 수 있는 다단계 에이전트 워크플로우(multi-step agent workflow)와 같은 환경을 의미합니다.

Anthropic의 가격 책정 문서에 따르면, Claude Sonnet 5는 2026년 6월 30일에 출시되었으며, 8월 31일까지 100만 토큰당 입력 $2 / 출력 $10의 도입 가격으로 제공됩니다. 그 이후에는 $3 / $15로 인상됩니다. 이 모델은 100만(1M) 토큰의 컨텍스트 윈도우(context window)를 제공하며, 긴 컨텍스트에 대한 추가 요금(long-context surcharge)이 없습니다. Claude Opus 4.8은 정확도가 중요한 작업을 위해 $5 / $25로 그 상위에 위치합니다. Sonnet 5는 SWE-bench Pro에서 63.2%를 기록하여 Opus 4.8의 69.2%에 비해 낮지만, 일반적인 지식 작업 벤치마크에서는 두 모델이 사실상 동등한 수준입니다. 이것이 바로 Anthropic이 이 두 모델을 엄격한 계층 분리(hard tier split)가 아닌 노력 조절 장치(effort dial)로 정의하는 이유입니다.

우리는 고객 지원 티켓을 읽고, Stripe를 확인하고, 사용 로그를 점검하며, 해결책 초안을 작성하는 빌링 분쟁 에이전트(billing-dispute agent)를 중간 정도의 노력(medium effort) 수준인 Claude Sonnet 5로 실행합니다. 이 에이전트는 업그레이드 이후 Sonnet 4.6의 약 71%였던 1차 통과 해결률(first-pass resolution rate)에서 84%로 상승했으며, 해결된 티켓당 토큰 비용은 실제로 감소했습니다. 두 번째 검토(second pass)가 필요한 티켓이 줄어들었기 때문입니다.

출시 게시물에서 아무도 언급하지 않는 함정은 다음과 같습니다: Sonnet 5의 새로운 토크나이저(tokenizer)는 동일한 입력 텍스트에 대해 Sonnet 4.6보다 약 30% 더 많은 토큰을 생성합니다. 우리의 도입 가격 절감 효과는 서류상으로는 실제 청구서보다 더 커 보였는데, 이는 우리가 이전 토크나이저의 카운트를 기준으로 예산을 세웠기 때문입니다. Sonnet 5의 비용을 예측하기 전에 프롬프트(prompt)의 토큰 수를 다시 계산하십시오.

흔한 실수: Sonnet 5의 예산을 세울 때 이전 Claude 모델의 토큰 수 추정치를 재사용하지 마십시오. 새로운 토크나이저는 동일한 텍스트에 대해 약 30% 더 많은 토큰을 생성하며, 이는 실제 청구 금액을 조용히 부풀립니다.

ChatGPT (GPT-5.5): 광범위한 제품 기능 및 생태계 도달 범위에 최적

GPT-5.5는 라우팅 레이어(routing layer)를 앞에 두지 않고도, 하나의 엔드포인트(endpoint)가 예측 불가능하고 광범위한 범위의 요청 유형을 능숙하게 처리해야 할 때 제가 선택하는 모델입니다.

OpenAI의 공식 가격 페이지에 따르면, GPT-5.5는 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 30달러의 비용이 발생하며, 1.05M 토큰의 컨텍스트 윈도우(context window)(대략 입력 922K, 출력 128K)를 제공합니다. 또한 캐시된 입력(cached-input) 가격은 100만 개당 0.50달러로 90% 할인된 가격이 적용됩니다. 토큰당 비용 기준으로 이번 비교 대상 중 가장 비싼 플래그십(flagship) 모델이지만, LangChain, 대부분의 노코드(no-code) 플랫폼, 그리고 Zapier 스타일 통합 기능의 대다수가 OpenAI의 함수 호출(function-calling) 형식을 우선적으로 기본값으로 채택하고 있는 만큼 가장 깊은 제3자 툴링(tooling) 생태계를 보유하고 있습니다.

우리의 AI 지원 스프레드시트 내보내기(export) 기능의 경우, GPT-5.5는 별도의 프롬프트 엔지니어링(prompt engineering) 없이도 동일한 테스트 세트에서 DeepSeek V4 Flash보다 병합된 셀, 혼합된 날짜 형식, 일관되지 않은 통화 기호와 같은 예외 케이스(edge cases)를 눈에 띄게 더 잘 처리했습니다. 잘못된 내보내기가 고객의 신뢰를 즉각적으로 떨어뜨릴 수 있는 기능이라면, 이 정도의 프리미엄을 지불할 가치가 있습니다.

그렇다고 해서 저는 여전히 새로운 엔드포인트(endpoint)의 기본값으로 GPT-5.5를 가장 먼저 설정하지는 않습니다. 출력 토큰 100만 개당 30달러라는 가격 때문에, 긴 응답을 생성하는 수다스러운(chatty) 기능은 예산을 빠르게 소진합니다. 또한 GPT-5.4(가격은 대략 절반 수준)는 최첨단(frontier) 작업이 아닌 대부분의 작업에서 GPT-5.5가 수행하는 일의 대부분을 처리할 수 있습니다. GPT-5.5는 예외 케이스 처리가 실제로 고객의 결과물을 변화시키는 소수의 엔드포인트에만 예약해 두십시오.

Grok: 실시간 데이터 및 저렴한 대량 채팅에 최적

Grok의 차별점은 지루하지만 진정으로 유용합니다. 바로 여기서 소개하는 모델 중 유일하게 실시간 X(구 트위터) 게시물 및 실시간 웹 데이터에 대한 네이티브(native) 퍼스트 파티 그라운딩(first-party grounding)을 갖추고 있다는 점입니다.

xAI의 API 문서에 따르면, Grok 4.3은 xAI의 현재 플래그십 모델로 100만 토큰당 입력 1.25달러 / 출력 2.50달러의 비용과 1M 토큰의 컨텍스트 윈도우(context window)를 제공하며, Grok 4.20 멀티 에이전트(Multi-Agent) 변형 모델은 동일한 토큰당 요율로 이를 2M 토큰 윈도우까지 확장합니다. 내장된 웹 검색 및 X 검색 기능은 표준 토큰 가격 외에 호출 1,000회당 약 5달러의 비용이 추가로 발생합니다.

우리는 제품 피드백 대시보드에 "사람들이 이 기능에 대해 무엇이라고 말하는가" 패널을 추가했습니다. Grok의 실시간 X 그라운딩 (X grounding) 기능은 단 한 번의 API 호출만으로 실제 소셜 감성 (social sentiment) 데이터를 제공했습니다. 이전에는 별도의 스크래퍼 (scraper)와 월 400달러 비용의 제3자 감성 분석 API를 결합하여 구현해야 했던 작업이었습니다. 그 전체 파이프라인이 월 40달러 미만의 Grok 엔드포인트 하나로 대체되었습니다.

규제 산업 (regulated industries) 내에서 고객을 직접 상대하는 용도로는 Grok을 제외했습니다. xAI의 콘텐츠 모더레이션 (content moderation) 태도는 Anthropic이나 OpenAI보다 더 허용적이고 공개적으로 일관성이 부족했습니다. 브랜드 이미지와 맞지 않는 말을 가끔 내뱉는 지원 봇은 토큰 비용 절감의 가치가 있는 리스크가 아닙니다. Grok은 우리 스택에서 광범위한 역할이 아닌, 좁고 특정한 역할을 수행합니다.

핵심 요약 (Key Takeaway): Grok의 실시간 X 및 웹 그라운딩 (web grounding)은 데이터 최신성 (data-freshness) 문제를 저렴하게 해결하지만, 고객 대상의 추론 (reasoning) 작업에서 Claude나 GPT를 대체할 수 있는 범용 모델은 아닙니다.

토큰 비용을 실제로 해결하는 방법: 기본값 대신 라우팅 (Route, Don't Default)

AI 지출을 줄일 수 있는 가장 큰 레버는 "최고의 모델"을 선택하는 것이 아니라, 각 요청 유형을 품질 기준을 충족하면서도 가장 저렴한 모델로 보내는 라우터 (router)를 구축하는 것입니다.

다음은 우리가 프로덕션 환경에서 실행하는 라우팅 로직의 단순화된 버전입니다. 이 로직은 먼저 작업 유형 (task type)을 확인한 다음, 비싼 모델을 사용하기 전에 신뢰도 점수 (confidence score)를 바탕으로 폴백 (fallback)을 수행합니다.

// lib/ai/router.ts
// 이 코드가 보여주는 것: 신뢰도가 낮은 출력에 대해 더 비싼 모델로 폴백하기 전에
// 작업 유형별로 라우팅하는 방식
...

우리 시스템에서는 신뢰도가 낮은 DeepSeek 호출의 결과가 자동으로 Claude Sonnet 5로 에스컬레이션 (escalate)됩니다. 즉, 동일한 저가형 모델로 두 번 재시도하지 않습니다. 이 단 하나의 폴백 규칙만으로 "고객이 질문을 다시 작성해야 했던" 불만 사항을 약 3분의 1 정도 줄였습니다.

우리는 먼저 더 단순한 라우터(router)를 시도했습니다. 채팅용 모델 하나와 그 외 모든 것을 처리하는 모델 하나로 구성하는 방식이었습니다. 하지만 이는 거의 아무런 비용 절감 효과가 없었는데, 왜냐하면 "그 외 모든 것"에는 50토큰(token) 규모의 분류(classification) 호출과 동일한 요율로 청구되는 30,000토큰 규모의 문서 요약(summary)이 모두 포함되어 있었기 때문입니다. 비용을 실제로 유의미하게 변화시키는 것은 트래픽 유형(traffic-type) 기반의 라우팅이 아니라, 작업 유형(task-type) 기반의 라우팅입니다.

핵심 요약 (Key Takeaway): 신뢰도가 낮을 때만 상위 모델로 에스컬레이션(escalation)하는 작업 인식형 라우터(task-aware router)를 사용하는 것이, 앱 전체를 단일 "저렴한" 모델로 전환하는 것보다 일반적으로 총 토큰 지출을 더 많이 절감합니다.

SaaS 규모에서의 월간 비용 비교

수치를 통해 이를 구체화해 보겠습니다. 매달 1,000만 개의 입력 토큰과 200만 개의 출력 토큰을 처리하는 중간 규모의 SaaS 지원 레이어(support layer)가 표준(비도입용 제외) 가격 기준으로 각 모델에서 실제로 지불하는 비용은 다음과 같습니다.

2026년 7월 표준 요율 기준, 캐싱(caching) 미적용 시 1,000만 입력 / 200만 출력 토큰에 대한 예상 월간 비용

모델	입력 비용	출력 비용	월간 총계
DeepSeek V4 Flash	$1.40	$0.56	$1.96
...

이 표는 현재 사용 가능한 8개의 플래그십 등급(flagship-tier) 모델 전체에 대해 동일한 워크로드(workload)를 적용한 가격을 보여줍니다. 동일한 입/출력 볼륨에 대해 $1.96에서 $110까지 차이가 난다는 사실 자체가 라우팅이 필요한 이유를 입증합니다. 프롬프트 캐싱(Prompt caching)만으로도 반복되는 시스템 프롬프트에 대해 이러한 수치의 60~90%를 추가로 절감할 수 있으며, 이는 모델 선택 문제를 고민하기 전에 구축할 가치가 있는 별도의 레버(lever)입니다.

Insights