추론 레이어 (The Inference Layer)
요약
추론 인프라(Inference Infrastructure) 스타트업들이 폭발적인 매출 성장과 함께 수십억 달러 규모의 투자를 유치하며 급성장하고 있습니다. Baseten, Fireworks AI 등 주요 기업들은 모델 제공업체와 애플리케이션 개발자 사이의 핵심 레이어로 자리 잡고 있습니다.
핵심 포인트
- 추론 인프라 섹터의 합산 기업 가치가 300억 달러를 초과함
- Baseten은 12개월 만에 매출이 20배 성장하며 AWS 등과 유사한 궤적을 보임
- 추론 인프라는 모델 제공업체와 앱 개발자 사이의 핵심 계층으로 부상
- Fireworks AI는 추론 최적화 기술을 통해 높은 매출 성장률을 기록 중
세 곳의 추론 인프라 (inference infrastructure) 스타트업이 같은 달에 합산 300억 달러 규모의 투자를 유치하고 있습니다. 엔터프라이즈 컴퓨팅 (enterprise computing) 분야에서 가장 빠르게 성장하는 이 섹터는 18개월 전에는 존재하지 않았습니다.
2026년 5월 마지막 주, 동일한 섹터에서 자금을 조달 중인 세 기업이 서로 다른 관점에서 동일한 이야기를 들려주었습니다. Cursor, Notion, HeyGen에 AI 모델을 제공하는 Baseten은 110억 달러의 기업 가치로 10억 달러를 조달하기 위한 협상에 들어갔습니다. Uber, DoorDash, Shopify를 고객사로 두고 있는 Fireworks AI는 150억 달러 규모의 논의를 시작했습니다. 세 곳 중 규모가 가장 작은 Modal Labs는 약 45억 달러 규모의 시리즈 C (Series C) 투자를 마감했습니다. 네 번째 기업인 Together AI는 최근 기업 가치를 공개하지 않은 채 이미 연간 매출 10억 달러를 돌파했습니다.
이 네 기업의 합산 기업 가치는 300억 달러를 초과합니다. 이들 중 2025년 이전에 매출 1억 달러에 도달한 기업은 한 곳도 없었습니다. 이들이 점유하고 있는 섹터인 추론 인프라 (inference infrastructure)는 18개월 전에는 공인된 시장 카테고리가 아니었습니다.
매출 (The Revenue)
Baseten의 궤적은 가장 가파릅니다. 2025년 3월, 이 회사의 연간 매출은 약 3,000만 달러였습니다. 2026년 1월에는 그 수치가 2억 달러에 도달했습니다. 1분기 말에는 6억 달러에 이르렀습니다. 이는 12개월 만에 20배 성장한 것으로, 유사한 단계에서의 AWS, Snowflake, Stripe의 초기 성장 궤적을 상회하는 수치입니다.
1월 펀딩 라운드에서 Baseten은 NVIDIA, IVP, CapitalG가 참여한 가운데 50억 달러의 기업 가치를 인정받았습니다. 4개월 후, 기업 가치는 두 배 이상 상승했습니다. 보도에 따르면 투자자들은 최대 150억 달러의 가치를 제안했으나, 회사는 110억 달러를 기준점으로 선택했습니다. 제안된 라운드의 매출 배수 (revenue multiple)는 연간 매출의 약 18배에 달하며, 이는 시장에서 통상적으로 반복 매출 (recurring revenue)과 높은 전환 비용 (switching costs)을 가진 플랫폼 비즈니스에 부여하는 수준입니다.
자체 FireAttention 커널을 통해 오픈 소스 모델 서빙 (serving)을 최적화하는 Fireworks AI는 2월 기준 연간 반복 매출 (annualized revenue)이 전년 대비 416% 증가한 3억 1,500만 달러를 기록했다고 보고했습니다. Bloomberg는 5월 27일, 이 회사의 기업 가치가 150억 달러 규모로 논의되고 있다고 보도했습니다. 이 회사는 Baseten과는 약간 다른 위치를 점하고 있습니다. Baseten이 원시 GPU 오케스트레이션 (orchestration)에 더 집중한다면, Fireworks AI는 추론 최적화 (inference optimization)에 더 집중합니다. 하지만 두 회사 모두 서비스가 아닌 플랫폼으로서 가치를 인정받고 있습니다.
위치 (The Position)
추론 인프라 (inference infrastructure)는 상단의 모델 제공업체 (model providers)와 하단의 애플리케이션 개발자 (application developers) 사이에 위치합니다. OpenAI, Anthropic, Google은 자체 API를 통해 자신들의 모델에 대한 접근 권한을 판매합니다. Cursor, Notion, Patreon과 같은 기업들은 GPU 클러스터 (GPU clusters)를 직접 관리하지 않으면서도 — 종종 Llama, Mistral, DeepSeek와 같은 오픈 소스 모델을 — 프로덕션 규모 (production scale)로 실행해야 합니다. 추론 레이어 (inference layer)는 모델을 제품으로 전환하는 서빙 (serving), 스케일링 (scaling), 캐싱 (caching), 그리고 오케스트레이션 (orchestration)을 제공합니다.
이러한 포지셔닝은 가치가 어디에 축적되는지를 결정하기 때문에 중요합니다. 모델 제공업체들은 성능 (capability)을 두고 경쟁하며 프런티어 (frontier)를 향해 경주합니다. 애플리케이션 기업들은 사용자 경험 (user experience)과 배포 (distribution)를 두고 경쟁합니다. 추론 레이어는 신뢰성 (reliability), 지연 시간 (latency), 그리고 토큰당 비용 (cost per token) — 즉, AI 기능이 프로덕션에서 제대로 작동할지를 결정하는 운영 지표 (operational metrics) — 를 두고 경쟁합니다. 이것은 배관 (plumbing)과 같으며, 배관 비즈니스는 복리 효과를 누립니다.
고객의 신호가 이를 확인해 줍니다. 역사상 가장 빠르게 성장하는 개발자 도구인 Cursor는 Baseten 위에서 작동합니다. 소프트웨어가 작성되는 방식을 재편하고 있는 이 도구가 추론 기능을 직접 구축하기보다 외주를 주기로 선택했다는 것은 시장 구조에 대한 결정입니다. 애플리케이션 레이어는 인프라 예산을 통해 투표하고 있습니다: 추론은 구축 (build)하는 것이 아니라 구매 (buy)하는 것입니다.
선례 (The Precedent)
이 패턴에는 이름이 있습니다. Amazon Web Services (AWS)는 2006년 사이드 프로젝트로 시작되었습니다. 2010년까지 그 매출은 20억 달러 미만이었으며, 이는 Amazon의 소매 사업 규모에 비하면 극히 일부에 불과했습니다. 시장은 이를 전략이 아닌 인프라 (infrastructure)로 취급했습니다. 그러나 2020년이 되자, AWS는 Amazon의 나머지 모든 부문을 합친 것보다 더 많은 영업 이익을 창출했습니다.
2026년의 추론 레이어 (inference layer)는 2008년의 AWS가 점유했던 것과 동일한 구조적 위치를 차지하고 있습니다. 즉, 초기 단계이며 고성장 중이고, 역량 제공자 (capability providers)와 애플리케이션 빌더 (application builders) 사이에 자리 잡고 있습니다. Fortune Business Insights는 글로벌 AI 추론 (inference) 시장 규모가 2026년에는 1,180억 달러에 달하고, 2034년에는 3,130억 달러까지 성장할 것으로 추정합니다. 추론은 2023년 약 3분의 1 수준이었던 것에 비해, 현재 모든 AI 컴퓨팅 (compute) 수요의 60~70%를 차지하고 있습니다. 본 저널이 지난 3월에 설명했던 역전 현상이 첫 번째 세대의 인프라 기업들을 만들어내고 있습니다.
여기에는 결정적인 차이점이 있습니다. AWS는 인프라와 그 위의 플랫폼을 모두 구축했습니다. 반면 추론 레이어 기업들은 인프라만을 구축하고 있으며, 모델이나 애플리케이션을 소유하지 않습니다. 이러한 특성이 그들을 AWS와 더 비슷하게 만들지, 아니면 AWS가 결국 대체하게 된 매니지드 호스팅 (managed hosting) 기업들과 더 비슷하게 만들지는 현재의 밸류에이션 (valuation)에서 투자하려는 모든 이들에게 핵심적인 질문입니다.
시그널 (The Signal)
이 정도 규모로 해당 섹터가 등장했다는 사실은 모델 벤치마크 (benchmarks)가 알려주지 못하는 무언가를 우리에게 말해줍니다. 오픈 소스 (open-source) AI 모델들은 오직 이들을 지원하기 위해 구축된 300억 달러 규모의 인프라 섹터를 지탱할 수 있을 만큼 충분한 시장 점유율을 확보했습니다. 만약 모든 기업이 OpenAI나 Anthropic의 폐쇄형 API (closed APIs)만을 사용했다면, 추론 레이어는 존재하지 않았을 것입니다. 추론 레이어의 존재는 모델 시장이 양분화되고 있다는 증거입니다. 즉, 가장 어려운 문제들을 위한 폐쇄형 프런티어 모델 (closed frontier models)과, 그 외 모든 것을 위한 전용 인프라 기반의 오픈 모델 (open models)로 나뉘고 있습니다.
JPMorgan의 CDS 바스켓(basket)은 AI를 구축하는 5개의 하이퍼스케일러(hyperscalers)를 포함하고 있습니다. 추론 레이어(inference layer)는 그 외 모든 이들이 이를 실행하는 곳입니다. 하이퍼스케일러들은 자본 지출(capex)을 기준으로 가치가 평가됩니다. 반면, 추론 기업들은 매출(revenue)을 기준으로 가치가 평가됩니다. 한 그룹의 기업들은 인프라를 구축하기 위해 6,900억 달러를 지출하고 있습니다. 또 다른 그룹은 이를 운영하는 대가로 비용을 지불받고 있습니다. AI 경제의 지출 측면과 수익 측면은 어느 시점에서 반드시 만나게 되어 있습니다. 추론 레이어가 바로 그 만남이 이루어질 지점입니다.
만약 추론 인프라 기업들의 연간 매출 합계가 2026년 말까지 50억 달러를 초과한다면, 이 섹터는 벤처 실험 단계에서 영구적인 시장 카테고리로 넘어가는 임계점을 통과하게 됩니다. 4개의 주요 플레이어 중 3개는 이미 그 지점에 도달했거나 도달 가능한 범위 내에 있습니다. 이 레이어는 형성되고 있습니다.
원문은 The Synthesis에 게시되었습니다 — 지능의 전환을 내부에서 관찰하며.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기