DeepSeek의 토큰 점유율 경쟁 진입과 Anthropic의 지속적인 지출 주도

매달, 당사는 프로덕션 애플리케이션과 AI 연구소(AI labs) 사이에서 수십조 개의 토큰을 라우팅하며, 연구소의 리더보드나 벤치마크와는 별개로 실제 AI 사용 현황이 어떠한지에 대한 가시성을 확보하고 있습니다. 당사는 이 데이터를 AI Gateway 프로덕션 인덱스(AI Gateway production index)를 통해 매달 발표합니다. AI Gateway

지난달, 폭증하는 토큰 예산에 관한 헤드라인이 기술 뉴스를 장악했습니다: 1분기 직후 발생한 Claude Code의 연간 예산 초과 문제와 생산성 없는 토큰맥싱(tokenmaxxing)을 억제하려는 Amazon의 움직임 등이 그것입니다. 통제 불능의 비용은 실제적인 문제이지만, 이번 달 보고서에 따르면 프로덕션 유스케이스(use cases)에 대한 지출은 여전히 증가했습니다. Uber의 막대한 비용 소모 및 KiroRank 중단

5월 AI Gateway 데이터에서 두 가지 통찰이 도출되었습니다:

2월부터 4월까지 AI Gateway 내 연구소별 볼륨(volume) 분포는 천천히 변화했으나, 5월에는 DeepSeek V4의 출시로 인해 토큰 점유율이 완전히 변화했습니다. 4월에는 거의 존재하지 않았던 시장의 저비용 영역이 5월에는 전체 지출에 큰 영향을 주지 않으면서도 AI Gateway에서 볼륨 기준 세 번째로 큰 제공업체가 되었습니다.

4월에 DeepSeek는 AI Gateway 토큰의 1% 미만, 지출의 0.2% 미만을 차지했습니다. 5월에는 토큰 볼륨 점유율이 17%로 급증하며 OpenAI를 제치고 3위에 올랐습니다. 이 볼륨의 거의 대부분은 5월에 출시된 두 모델인 deepseek/deepseek-v4-flash와 deepseek/deepseek-v4-pro에서 발생했습니다.

지출 양상은 이야기의 나머지 절반을 보여줍니다. DeepSeek의 토큰 점유율이 한 달 만에 17%로 성장했음에도 불구하고, 비용 점유율은 1% 근처에 머물렀습니다.

DeepSeek V4 Flash는 100만 토큰당 입력 $0.14 / 출력 $0.28로 출시되었으며, 이는 유사한 Anthropic 모델보다 약 20~~50배 저렴하고, Qwen 3.6 Plus 및 Kimi K2.6과 같은 다른 가성비 중심의 플래그십(flagships) 모델보다 8~~12배 저렴합니다. 이처럼 큰 비용 절감 격차 덕분에 팀들은 V4 Flash를 빠르게 도입했습니다.

단순히 가격만으로는 한 달 만에 DeepSeek의 볼륨(volume)을 이 정도로 변화시킬 수 없었을 것입니다. 이는 기존의 평가(evals)를 통해 DeepSeek V4를 테스트한 팀들이, 단순히 비용이 저렴해서 시도해 볼 만한 수준을 넘어 실제 서비스에 배포(ship)하기에 충분히 좋은 결과물을 얻었음을 의미합니다.

가치 중심 모델(Value-tier models)은 항상 AI Gateway에서 이용 가능했지만, 이 정도 규모의 토큰 점유율(token share)을 확보한 적은 없었습니다. 즉, DeepSeek V4는 해당 가격대에서 프로덕션(production) 작업에 필요한 품질 기준을 통과한 첫 번째 모델이라는 뜻입니다.

저가형 시장의 볼륨이 가장 빠르게 성장했음에도 불구하고, 비용(dollars) 측면에서는 고가형 시장이 더 빠르게 성장했습니다.

Anthropic의 토큰 점유율은 26%에서 32%로 증가했으며, 지출 점유율(spend share)은 61%에서 65%로 상승했습니다. OpenAI의 토큰 점유율은 13% 근처를 유지했으나, 전체 규모가 훨씬 커짐에 따라 지출 점유율은 12%에서 13%로 소폭 상승했습니다. 따라서 고객들은 5월에 OpenAI 토큰당 더 많은 비용을 지불했습니다.

DeepSeek이 평균치를 낮추었음에도 불구하고, 5월의 평균 토큰 가격은 더 비싸졌습니다. 이러한 상승은 프런티어 모델(frontier models)을 요구하는 작업이 그렇지 않은 작업보다 더 빠르게 성장했기 때문에 발생했습니다. AI 코딩 에이전트(AI coding agent) 유스케이스(use case)는 저가형과 프런티어 모델 간의 분리를 가장 명확하게 보여줍니다.

저가형 모델은 이제 프로덕션 워크플로(production workflows)의 의미 있는 부분이 되었지만, 프런티어 모델의 사용은 여전히 성장하고 있으며 이는 전체 지출의 증가를 견인하고 있습니다.

프런티어 모델은 토큰당 비용이 점점 더 비싸지고 있지만, 고객들은 여전히 비용을 지불하고 있습니다. Anthropic은 5월에 모든 게이트웨이 지출의 65%를 차지하고, 모든 고위험(high-stakes) 유스케이스 지출의 70~80%를 점유하며 지출 부문에서 계속해서 선두를 달리고 있습니다.

전체 지출의 증가는 5월에도 AI에 대한 수요가 계속 성장하고 있음을 보여주었지만, 팀들은 라우팅(routing)을 통해 예산에 더 정밀함을 적용했습니다. 그들은 저렴하고 볼륨이 큰 작업은 저가형 모델로 보내고, 품질이 가장 중요한 곳에는 프런티어 모델을 사용했습니다. Google의 최신 Flash 모델의 느린 채택이 명확한 사례입니다.

Gemini 3.5 Flash는 5월에 Gemini 3.0 Flash보다 높은 가격대로 출시되었지만, 대규모 마이그레이션(migration)은 일어나지 않았습니다. 월말 기준으로 3.5 모델은 Flash 제품군 토큰의 7%만을 점유한 반면, 3.0 모델은 90%를 점유했습니다.

2월과 3월에 걸친 Gemini 3.1 Pro의 급격한 도입과 비교했을 때, 3.5 Flash로의 느린 전환은 3.0 Flash에 만족하는 팀들이 아직 더 높은 비용을 지불할 의사가 없음을 보여줍니다.

이번 달 보고서는 전체 지출액과 토큰 볼륨(token volume)이 증가하고 있음에도 불구하고, 시장 내 가격 민감도(pricing sensitivity)가 높아졌음을 시사합니다. 이는 개발자들이 매 달러당 더 많은 가치를 얻을 수 있는 방법을 찾고 있음을 의미합니다.

데이터를 통해 두 가지 최적화 전략이 드러났습니다:

라우팅(Routing)은 연구소(labs)들이 서로 다른 계층의 프로덕션 AI 워크로드(production AI workloads)를 두고 경쟁함에 따라, 팀들이 모델 믹스(model mix)와 예산을 실시간으로 조정할 수 있는 능력을 제공합니다.

B2B 애플리케이션은 더 적고 더 비싼 호출(calls)을 수행하는 반면, B2C 애플리케이션은 저렴한 호출을 많이 수행합니다. 토큰당 기준으로 볼 때, 5월의 B2B 비용은 B2C보다 약 60% 더 높았습니다.

요청(requests)의 4분의 1 미만이 도구 호출(tool call)로 끝나지만, 이러한 요청들은 전체 토큰의 절반 이상을 차지합니다. 두 지표 모두 전월 대비 거의 평이한 수준을 유지하고 있습니다.

사용 사례별 비용 점유율(Use case cost share)은 얼마나 많은 토큰을 소모하느냐가 아니라, 잘못된 답변이 얼마나 비싼 대가를 치르게 하는지를 나타냅니다. 개인 비서(Personal assistants)와 코딩 에이전트(coding agents)는 토큰당 비용이 저렴한 반면, 백오피스(back-office) 및 채용 관련 작업은 훨씬 더 많은 비용이 발생합니다.

[. 2026년 4월 AI Gateway 프로덕션 인덱스 읽기](https://vercel.com/blog/ai-gateway-production-index)

이 분석은 2026년 5월까지의 Vercel AI Gateway로부터 수집된 익명화된 집계 라우팅 데이터를 기반으로 합니다.

측정에 관한 몇 가지 참고 사항:

2026년 5월 요약

B2B 분류별 토큰 대비 비용 점유율

토큰 및 요청 전반에 걸친 에이전트 도구 사용

요청 볼륨별 모델 다양성 분포

사용 사례별 비용 대비 볼륨 점유율

이 데이터에 대하여

전체 AI Gateway 토큰량이 증가했으며, 전체 지출(spend)도 증가했습니다. 고객들은 4월 대비 토큰당 평균적으로 거의 20% 더 많은 비용을 지불했습니다.**전월 대비(MoM) +20%**전월 대비(MoM) +43%
DeepSeek의 토큰 점유율은 단 한 달 만에 **1%에서 17%**로 급증한 반면, 지출 점유율은 1% 근처에 머물렀습니다.
Anthropic의 지출 점유율은 5월 **61%에서 65%**로 성장하며, 모든 고위험 사용 사례(AI 앱 생성, 백오피스 에이전트, 코딩 에이전트) 전반에서 지출의 70~80%를 유지했습니다.
비용 의식(Cost-consciousness)은 저비용 모델과 프런티어 모델(frontier models) 사이의 더 스마트한 라우팅(routing)을 의미했습니다. 전체 사용량은 계속 상승하는 동안, 고객들은 어떤 모델이 어떤 작업을 수행할지에 대해 더 신중해졌습니다.
새로운 모델들이 기존 연구소(labs)들을 훨씬 더 비싸게 보이게 만드는 가격대로 출시되었으며, 이들은 프로덕션(production) 환경에 진입할 수 있을 만큼 충분한 역량을 갖추고 있습니다.저비용 모델의 프로덕션 진입:
팀들은 여전히 토큰 예산을 늘리고 있지만, 매 달러당 더 많은 가치를 얻기 위해 더 스마트한 라우팅 전략을 구현하고 있습니다.지출은 증가하고 있으나, 더 스마트한 모델 혼합(model mixes)을 동반함:
DeepSeek는 해당 세그먼트 토큰 볼륨의 49%를 견인했으나, 비용은 4%에 불과했습니다.
Anthropic은 토큰의 28%를 견인했으나, 비용의 70%를 차지했습니다.
_지출(Spend)_은 자체 API 키를 사용하는 팀들 간의 정규화된 뷰를 제공하기 위해 시장 가격(공개된 리스트 가격)을 사용합니다.
_볼륨(Volume)_은 AI Gateway를 통해 라우팅된 토큰을 계산합니다.
B2C, B2B, 사용 사례(use-case) 분류는 집계된 데이터입니다. 개별 팀이나 워크로드는 식별되지 않습니다.

저비용 모델이 처음으로 상당한 프로덕션 볼륨을 기록함

프런티어 연구소들이 새로운 지출의 과반을 계속해서 점유함

비용 규율이 라우팅 전략이 됨

결론: 비용 효율적이고 역량 있는 옵션들은 더 스마트한 모델 혼합을 의미함

부록

이전 보고서

저위험, 고볼륨 작업을 위해 DeepSeek의 저렴하지만 역량 있는 V4 제품군 사용하기
ROI(투자 대비 효율)가 타당해질 때까지 모델 제품군 업그레이드를 연기하기로 결정하기