본문으로 건너뛰기

© 2026 Molayo

Vercel헤드라인2026. 05. 14. 07:05

AI Gateway 프로덕션 인덱스

요약

AI Gateway 보고서는 20만 개 이상의 팀의 7개월간 프로덕션 트래픽 데이터를 분석하여, AI 모델 시장이 단일 승자가 아닌 사용 사례(use case)별로 파편화되어 있음을 보여줍니다. 지출액과 토큰 볼륨 측면에서 각 모델 제공업체(Anthropic, Google, OpenAI 등)의 점유율이 다르게 나타나며, 이는 모델이 어떤 종류의 워크로드(예: 백오피스 vs 개인 비서)에 사용되는지에 따라 그 가치가 달라지기 때문입니다. 결론적으로, AI 시장은 '누가 승리하는가'보다 '특정 유스케이스에서 누가 승리하는가'를 질문해야 합니다.

핵심 포인트

  • AI 모델 시장은 단일 지배자가 존재하지 않으며, 사용 사례(use case)별로 파편화되어 있다.
  • 모델의 가치는 워크로드의 성격에 따라 달라진다: 높은 이해관계(High-stakes)가 걸린 백오피스 작업에는 강력한 추론 능력이 필요해 비용이 높게 책정된다. 반면, 개인 비서 같은 저위험 작업은 빠르고 저렴한 모델을 사용한다.
  • 지출액 점유율과 토큰 볼륨 점유율 간의 괴리가 크므로, 단순히 시장 지배력을 판단하기 어렵다.
  • B2B 애플리케이션은 B2C보다 호출 횟수는 적지만, 오류 발생 시 리스크가 커서 토큰당 비용이 더 높게 책정된다.
  • OpenAI는 네 가지 주요 계층에서 균형 잡힌 점유율을 보이며, 특정 영역에 치우치지 않은 포지션을 가지고 있다.

어떤 AI 모델이 가장 좋은지 물어본다면, 그 답변은 잉크가 마르기도 전에 바뀔 것입니다. 매주 새로운 모델이 출시되는 업계에서는 바로 이런 일이 일어납니다. 모든 벤치마크 (Benchmark)는 서로 다른 경주를 측정하며, 모든 경주는 각기 다른 승자를 탄생시키지만, Vercel은 실제 프로덕션 워크로드 (Production workloads)를 통해 업계를 바라보는 독특한 관점을 가지고 있습니다. 실제 애플리케이션과 에이전트 (Agents)를 통해 수백 개의 모델에 걸쳐 수십조 개의 토큰 (Tokens)을 처리하고 있습니다.

AI Gateway: 우리가 목격하고 있는 것
이 보고서는 20만 개 이상의 고유 팀 (Unique teams)이 사용 중인 AI Gateway의 7개월간 프로덕션 트래픽 (Production traffic) 데이터를 기반으로 작성되었습니다. 비용 (Cost) 순위와 볼륨 (Volume) 순위는 동일한 고객이라 할지라도 서로 다른 두 가지 워크로드를 측정하기 때문에 일치하지 않습니다. 2026년 4월 지출액 기준으로 Anthropic이 61%, Google이 21%, OpenAI가 12%를 차지했습니다. 토큰 볼륨 기준으로 보면 상황은 뒤집혔습니다. 4월 AI Gateway를 통한 트래픽의 38%는 Google로, 26%는 Anthropic으로, 13%는 OpenAI로, 10%는 xAI로 라우팅되었습니다. 나머지 비중은 더 작은 연구소 (Labs)들이 나누어 가졌습니다.

어떤 모델들은 토큰당 비용이 매우 저렴하여 엄청난 볼륨을 감당함으로써 승리할 수 있는 위치에 있는 반면, 다른 모델들은 품질이 중요한 작업에만 의미가 있도록 높은 가격이 책정되어 있습니다. 서로 다른 모델들은 동일한 호출 (Call)을 두고 경쟁하는 것이 아닙니다. 총체적으로 보면 동일한 고객층이 두 리더보드 (Leaderboards) 모두에 걸쳐 있으며, 프리미엄 추론 호출 (Premium reasoning calls)은 Claude Opus에, 저렴하고 빠른 호출 (Cheap fast calls)은 Gemini Flash에 배치됩니다. 지출은 높은 이해관계가 걸린 호출을 따르고, 볼륨은 낮은 이해관계의 호출을 따르며, 각 연구소는 동일한 애플리케이션의 서로 다른 계층을 점유하고 있습니다.

볼륨 대 지출 (Volume-vs-spend) 관계 또한 연구소 수준에서 빠르게 변화합니다. 몇 가지 구체적인 신호는 다음과 같습니다: 특정 종류의 워크로드 내부에서도 동일한 비용/볼륨 격차가 존재합니다. 즉, 워크로드가 토큰당 지출하는 비용은 해당 유스케이스 (Use case)에서 잘못된 답변이 얼마나 비싼 대가를 치르게 하는지의 함수입니다. 개인 비서 (Personal assistants)는 실수가 개별 사용자에게만 영향을 미치고 빠르게 수정될 수 있기 때문에 저렴하고 빠른 모델로 구동될 수 있습니다. 반면 백오피스 워크플로 (Back-office workflows)는 오류가 호출당 절감 비용보다 더 큰 법적, 재무적 또는 운영적 리스크를 유발할 수 있기 때문에 더 강력한 추론을 위해 비용을 지불합니다.

토큰당 경제학은 스테이크 맵 (stake map)과 같습니다. 즉, 실수의 비용이 더 클수록 애플리케이션은 토큰당 더 많은 비용을 지불합니다. 동일한 패턴이 더 넓은 B2C/B2B 구분에서도 유지됩니다. B2C 애플리케이션은 저비용 호출을 많이 생성하는 반면, B2B 애플리케이션은 호출 횟수는 적지만 더 비싼 호출을 실행합니다. 토큰당 기준으로 볼 때, B2B 비용은 B2C보다 대략 두 배 정도 높습니다. 사용 사례별로 데이터를 나누어 보면 파편화된 제공업체 지형이 나타납니다. Anthropic의 패턴은 리스크가 큰 (high-stakes) 계층에 집중되어 있습니다. 워크로드가 백오피스 (back office)에서 소비자 (consumer)로 이동함에 따라, Anthropic의 토큰 점유율은 71%에서 7%로 떨어집니다. 비용 점유율은 훨씬 완만한 곡선을 그리며 4개 카테고리 중 3개에서 선두를 유지합니다. 수익은 처리되는 볼륨이 얼마나 되든 관계없이, 답변이 반드시 정확해야 하는 곳에 집중됩니다. Google은 이와 반대되는 형태를 보입니다. Google의 발자취는 소비자 영역에 집중되어 있으며, 이곳에서 Gemini Flash는 비용의 15%만 차지하면서 토큰의 28%를 담당하고 있으며, 그 외의 비용 차트에서는 거의 나타나지 않습니다. 이 포지션은 Flash 채택률에 따라 오르내리는 단일 SKU (single-SKU) 베팅입니다. xAI는 가격 쐐기 (price wedge) 역할을 합니다. 빌딩 (building) 토큰의 20%와 아웃리치 (outreach) 토큰의 18%를 처리하지만, 각각의 비용 점유율은 실질적으로 더 낮습니다. xAI는 가격 대비 품질 적합성 (price-to-quality fit) 측면에서 승리하며, 이 가격을 맞추는 누군가가 쐐기를 닫게 될 것입니다. Grok. OpenAI는 빌딩 비용의 6%, 소비자 비용의 18%, 아웃리치 비용의 28%를 차지하며 네 곳 중 가장 균형 잡힌 모습을 보입니다. OpenAI의 전체 점유율을 지탱하는 단일 계층은 없으며, 이는 이 회사가 어느 한 계층에서의 파괴적 혁신 (disruption)에 대해 네 곳 중 가장 노출이 적음을 의미합니다. Kimi, MiniMax, GLM과 같은 오픈 웨이트 (open-weights) 모델 제품군들은 비용 상한선이 가장 낮은 소비자 및 빌딩 티어 (tier)를 순환합니다. 이들의 비용 점유율은 작게 유지되지만, 소비자 및 빌딩 내에서의 토큰 점유율은 충분히 커서 비용만을 기준으로 시장을 바라볼 경우 이들을 과소평가하게 됩니다. 단일한 지배적 사용 사례가 없기 때문에 시장 전체를 지배하는 단일 지배적 제공업체는 존재하지 않습니다.

올바른 질문은 "누가 AI에서 승리하고 있는가?"가 아니라, "내가 관심을 갖는 유스케이스 (use case)에서 어떤 모델이 승리하고 있는가?"입니다. 혼합 차트 (blended chart) 상에서 실력이 비슷해 보이는 연구소들은 사실 동일한 스택 (stack)의 서로 다른 계층을 두고 경쟁하고 있습니다. 이 모든 현상 아래에서 프로덕션 AI 요청 (production AI requests)의 형태가 변화했습니다. 2026년 4월 기준, AI Gateway 요청의 22.2%가 툴 호출 (tool call)로 종료되었으며, 이는 2025년 10월의 11.4%에서 상승한 수치입니다. 토큰 (tokens) 기준으로 측정하면 그 변화는 더 큽니다. 현재 모든 토큰의 58.9%가 툴 호출 요청에 사용되고 있으며, 이는 6개월 전 31.6%에서 증가한 것입니다. 두 지표 모두 에이전틱 (agentic) 점유율이 반년 만에 대략 두 배로 증가했음을 보여주지만, 더 의미 있는 숫자는 두 점유율 사이의 격차입니다. 요청의 22.2%가 토큰의 58.9%를 차지한다는 것은, 툴을 사용하는 요청이 나머지 요청보다 약 2.6배 더 토큰 집약적임을 의미합니다. 헤드라인상의 요청 횟수는 거의 변하지 않은 반면, AI의 비용 구조 (cost surface)는 채팅 형태 (chat-shaped)에서 에이전트 형태 (agent-shaped)로 변화했습니다. 함수 실행 (function execution), API 호출 (API call), 데이터베이스 쿼리 (database query), 또는 코드 실행 (code run) 등 모든 종류의 왕복 (round trip)은 동일한 미터기로 과금되므로, 에이전트가 10개의 툴 호출을 수행하면 채팅보다 대략 10배의 토큰이 과금됩니다. 채팅이 프롬프트당 한 번의 왕복을 과금한다면, 에이전트는 체인 (chain)을 과금합니다. 규모가 커짐에 따라 멀티 모델 (multi-model)은 선택 사항이 아니라 표준적인 에이전트 아키텍처 (agent architecture)가 됩니다. 1,000개에서 10,000개의 요청을 처리하는 팀은 평균 3개의 서로 다른 모델을 사용했습니다. 1,000만 개 이상의 요청 구간에서는 정기적으로 사용하는 모델이 평균 35개에 달합니다. 100만~1,000만 개 구간의 18개 모델에서 1,000만 개 이상 구간의 35개 모델로의 급증이 바로 변곡점 (inflection point)입니다. 35개의 모델로 구성된 플릿 (fleet)은 라우팅 그래프 (routing graph)로서 작동하며, 의도 탐지 (intent detection)를 위한 저렴한 분류기 (classifier), 추론 (reasoning) 단계를 위한 프런티어 모델 (frontier model), 검색 (retrieval)을 위한 임베딩 모델 (embedding model), 요약을 위한 빠른 모델 (fast model), 그리고 스크린샷을 위한 비전 모델 (vision model)을 포함합니다. 이 모델들은 각각 교체 가능합니다. 만약 특정 제공업체가 가격을 인상하거나, 품질을 저하시키거나, 장애 (outage)가 발생하면 트래픽은 몇 시간 내에 나머지 모델들로 재분배됩니다.

리더보드(leaderboards)에서 발생하는 지출의 대부분을 차지하는 규모에서는, 연구소(labs) 간의 전환이 벤더 마이그레이션(vendor migration)이라기보다는 설정 변경 (config change)에 가깝습니다. 따라서 연구소에 종속(lock-in)된다는 일반적인 이야기는 요청 볼륨 곡선(request-volume curve)의 상단으로 올라갈수록 역전됩니다. 동일한 플릿 설계 (fleet design)는 새로운 릴리스가 얼마나 빠르게 흡수되는지를 설명해 줍니다. 모델 제품군 내에서 새로운 버전이 출시되면, 몇 주 이내에 트래픽이 해당 버전으로 이동합니다. Claude Sonnet 4.6은 출시 후 첫 전체 달 이내에 Sonnet 제품군 점유율의 대부분을 흡수했습니다. Opus 제품군 또한 현재 동일한 형태를 보이고 있으며, Claude Opus 4.7이 거의 동일한 곡선을 그리며 Opus 4.6의 점유율을 가져오고 있습니다. 이전 모델들은 두 기간 동안 AI Gateway에서 계속 활성화되어 라우팅이 가능했음에도 불구하고, 팀들은 어쨌든 이동했습니다. 마이그레이션은 설정 변경이며, 연구소들은 더 이상 자사 제품 라인의 업그레이드 일정을 직접 결정하지 못합니다.

AI Gateway의 요청 중 약 3.5%가 폴백 (fallback) 이후에 완료됩니다. 이는 초기 경로가 에러, 속도 제한 (rate limit), 또는 타임아웃 (timeout)에 걸렸을 때, 게이트웨이가 사용자가 여전히 성공적인 응답을 받을 수 있을 만큼 충분히 빠르게 건강한 대안으로 요청을 재발행했음을 의미합니다. 토큰 기준으로 측정된 구조율 (rescue rate)은 5.1%이며, 달러 기준으로는 4.9%입니다. 토큰 가중 및 비용 가중 비율이 요청 가중 비율보다 높은 이유는, 구조된 요청들이 구조되지 않은 요청들보다 평균적으로 더 크고 더 비싸기 때문입니다. 긴 컨텍스트 윈도우 (long context windows)는 짧은 것보다 속도 제한에 더 자주 걸리고, 다단계 에이전트 실행 (multi-step agent runs)은 단계별로 실패가 누적되며, 무거운 추론 호출 (heavy reasoning calls)은 지속적인 부하 상황에서 타임아웃이 발생합니다. 이러한 각각의 실패 모드 (failure modes)는 워크로드의 비용이 많이 드는 부분을 타겟팅하며, 이것이 달러 비율이 요청 비율보다 높게 나타나는 이유입니다. 제공업체의 SLA는 요청 수준의 가동 시간 (uptime)을 측정하지만, 프로덕션 애플리케이션은 비용 가중 가동 시간을 경험하며, 이 두 수치는 모델 비용을 지불하는 바로 그 호출들에서 차이가 발생합니다. 프로덕션 워크로드는 최신 모델 리더보드에 맞추기 위한 것이 아니라, 효율성, 신뢰성, 그리고 유연성을 위해 설계되었습니다.

동일한 데이터의 6가지 절단면(cuts)을 살펴보더라도 그 기저의 형태는 동일하게 유지됩니다. 서로 다른 연구소(labs)들이 동일한 애플리케이션의 서로 다른 계층(layers)에서 승리하고 있으며, 이러한 계층들을 처리하는 아키텍처는 대규모 프로덕션 팀들이 이미 구축해 온 것입니다. 이는 초기 클라우드 시대의 모습과 유사합니다. 팀들은 먼저 컴퓨팅 자원을 확장하고(더 많은 인스턴스, 리전, 중복성), 나중에 단위당 비용을 압축했습니다. 지출 곡선의 상단에서 보이는 35개 모델 함대(fleets)는 더 빠른 속도로 진행되는 동일한 패턴입니다. 그 뒤를 따르는 최적화는 라우팅 계층(routing layer)에서 발생합니다. 오늘날 AI를 출시하는 모든 이들에게: 우리는 패턴이 변화함에 따라 정기적인 주기로 이 데이터를 다시 검토하게 될 것입니다. 실시간 모델 순위는 AI Gateway Leaderboards에서 확인할 수 있습니다. 이 분석은 2026년 4월까지 Vercel AI Gateway의 익명화된 집계 라우팅 데이터를 기반으로 합니다. 측정에 관한 몇 가지 참고 사항:

  • Anthropic은 더 높은 단위 가격에도 불구하고 지출(spend)에서 앞서고 있습니다.

  • Google은 볼륨(volume)에서 앞서고 있습니다.

  • 오픈 소스(OSS) 모델들이 탄력을 받고 있지만, 특정 연구소에 대한 충성도는 없습니다.

  • OpenAI의 지출 점유율은 최근 모델 업데이트 이후 빠르게 성장하고 있습니다.

  • 고볼륨 워크로드는 평균 30개 이상의 서로 다른 모델로 라우팅됩니다.

  • 에이전트형(Agentic) 워크로드가 전체 토큰 볼륨의 59%를 차지합니다 (6개월 동안 2배 증가).

  • Gemini Flash 덕분에 Google은 지출 점유율은 더 낮으면서도 볼륨에서 선두를 차지했습니다.

  • Claude Opus는 Google보다 적은 볼륨으로 Anthropic이 지출을 주도하는 데 기여하고 있습니다.

  • OpenAI의 지출 점유율은 GPT-5.4/5.5 출시 이후 3월부터 4월 사이에 세 배 증가했습니다.

  • Google의 지출 점유율은 Gemini Flash 사용량이 확장됨에 따라 3월 8%에서 4월 21%로 상승했습니다.

  • 개인 비서(Personal assistants)는 토큰 볼륨의 40%에서 비용의 20%를 차지합니다.

  • 코딩 에이전트(Coding agents)는 토큰의 20%에서 비용의 약 22%로 균형을 이루고 있습니다.

  • 백오피스 에이전트(Back office agents)는 토큰의 15%에서 비용의 6%로 운영됩니다.

  • 앱 생성(App generation)은 토큰의 11%에서 비용의 7%로 운영됩니다.

  • Anthropic은 특히 소프트웨어 구축 분야를 주도합니다.

  • Google은 소비자(consumer) 분야에 과잉 집중되어 있습니다.

  • OpenAI는 가장 고르게 분포되어 있습니다.

  • xAI 및 기타 업체들은 코딩, 소비자, 그리고 롱테일(long-tail) 사용 사례에 나뉘어 있습니다.

  • 여러 제공업체에 걸친 다중 모델(multiple models) 계획을 세우십시오.

  • 가동 시간(uptime)과 비용을 최적화하기 위해 폴백(fallback)이 필요하다고 가정하십시오.

  • 처음부터 아키텍처의 핵심 단위로서 라우팅(routing)을 설계하십시오.

  • 각자 자신의 API 키를 가져오는 팀들 간에 정규화된 뷰(normalized view)를 제공하기 위해 시장 가격(공표된 리스트 가격)을 사용합니다.

  • 지출액은 AI Gateway를 통해 라우팅된 토큰을 기준으로 계산됩니다.

  • 볼륨(volume), 지출(spend), 분류(classifications)는 합계 데이터입니다.

  • 개별 팀이나 워크로드(workload)는 식별되지 않습니다.

  • B2C 및 B2B 사용 사례: Anthropic이 지출액에서 앞서고, Google이 볼륨에서 앞섭니다.

  • 지출은 오류가 발생했을 때의 비용(cost of being wrong)을 따릅니다.

  • 단일 제공업체가 모든 사용 사례에서 승리하지는 않습니다.

  • 앱들이 점점 더 에이전트화(agentic)되고 있습니다.

  • 리더보드(leaderboards)는 하나의 모델을 순위 매기지만, 프로덕션 팀들은 대규모로 35개 이상의 모델을 사용합니다.

  • 새로운 모델들이 빠르게 채택됩니다.

  • 제공업체의 장애(outages)에는 숨겨진 비용이 있습니다.

  • 결론: 실험실(lab)이 아닌 워크로드(workload)를 위해 구축하십시오.

  • 이 데이터에 대하여

AI 자동 생성 콘텐츠

본 콘텐츠는 Vercel AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0