OpenAI는 분당 0.25달러에 음성 스택을 출시했고, Vapi는 엔터프라이즈로 향했습니다. 인프라 계층은 11일 만에 에이전시를 버렸습니다.

5월 7일, OpenAI는 GPT-5급 추론 능력, 128K 컨텍스트, 네이티브 번역 및 70개 이상의 언어를 지원하는 gpt-realtime-2를 Realtime API를 통해 대화 분당 약 0.25달러에서 0.35달러의 가격으로 일반 공개(GA)했습니다. 관련 보도: TechCrunch, OpenAI의 발표, 그리고 DataCamp의 상세 분석. 5일 후인 5월 12일, Vapi는 5억 달러의 기업 가치로 5,000만 달러 규모의 Series B 투자를 유치했으며, Amazon Ring이 모든 인바운드 호출을 Vapi를 통해 처리함에 따라 스스로를 엔터프라이즈 인프라 계층으로 공개적으로 포지셔닝했습니다. 그로부터 이틀 뒤, Synthflow의 엔터프라이즈 페이지는 두 가지 거래 증거를 앞세우기 시작했습니다: 월 60만 건의 통화를 처리하며 40개 이상의 브랜드 에이전트를 운영하는 2억 3,000만 달러 규모의 다국적 BPO 운영사, 그리고 월 50만 건의 통화를 처리하며 Synthflow를 화이트 라벨링(white-labeling)하여 사용하는 미국의 주요 CRM 플랫폼이 모두 60일 이내에 성사되었습니다. 전체 증거는 Synthflow의 엔터프라이즈 비교 페이지에서 확인할 수 있습니다.

11일. 세 가지 사건. 하나의 결과. AI 음성 스택(AI voice stack)의 중간 계층이 붕괴되었으며, 5명의 고객을 보유한 에이전시 소유자만이 아무도 공학적으로 설계하지 않는 방에 남겨진 유일한 고객이 되었습니다.

이것이 AI 음성 에이전시에게 중요한 이유

지난 18개월 동안 전형적인 AI 음성 에이전시 스택은 래퍼(wrapper) 또는 인프라 플랫폼(Retell, Vapi, Voicerr, Synthflow)에 GoHighLevel, Zapier, Stripe, Twilio, 그리고 커스텀 대시보드를 결합한 형태였습니다. 래퍼 계층이 존재했던 이유는 오케스트레이션(orchestration)이 어려웠기 때문입니다. STT(음성-텍스트 변환), LLM(대규모 언어 모델), TTS(텍스트-음성 변환), 전화 기술(telephony), 턴 테이킹(turn-taking), 바지인(barge-in, 발언 중 개입), 지연 시간 튜닝(latency tuning), 그리고 통화 품질을 하나로 엮는 것은 200ms의 지터(jitter)를 관리해야 하는 4개 벤더의 문제였습니다. 당신은 모델이 아니라 통합(integration)을 위해 래퍼에 비용을 지불했던 것입니다.

5월 7일, 오케스트레이션 (orchestration)이 사라졌습니다. 이제 OpenAI는 단 하나의 API 호출 내에서, 단 하나의 모델을 통해 음성 대 음성 추론 (speech-to-speech reasoning)을 처리하며, 캐싱 (caching)을 통해 가장 큰 비용 항목을 80배나 낮췄습니다. 래퍼 (wrapper)가 존재해야 했던 이유는 바로 이들을 이어 붙이는 작업 (stitching) 때문이었습니다. 하지만 그 이어 붙이는 작업이 모델 계층 (model layer)에 의해 먹혀버렸습니다. eWeek은 이러한 전략적 변화를 명확하게 요약했습니다:

"OpenAI의 베팅은 하나의 모델 내부에서 오디오 추론을 수행하는 것이 세 개의 벤더를 이어 붙이는 것보다 더 방어력이 높다는 것입니다. ElevenLabs, Deepgram 및 나머지 업체들이 자신들의 입지 (wedge)를 유지할 수 있을지는 그들이 얼마나 빨리 자체적인 통합 스택 (integrated stacks)을 밀어붙이느냐에 달려 있습니다."

동시에, 하부로부터 범용화 (commoditized)될 수 없었던 래퍼 및 인프라 기업들은 위쪽으로 탈출하기로 결정했습니다. Vapi의 TechCrunch 기사는 이 현상의 공개적인 버전입니다. 내부적인 버전은 같은 주에 출시된 gpt-realtime-2의 고객 명단에서 확인할 수 있습니다: Zillow, Glean, Genspark, Bluejay, Intercom, Priceline, Foundation Health, Deutsche Telekom. 소리 내어 읽어보십시오. 에이전시 (agency)는 단 한 곳도 없습니다. Synthflow의 고객 명단도 같은 형태를 띱니다: 2억 3천만 달러 규모의 BPO, 국가적 CRM 플랫폼, 월 60만 건의 통화, 월 50만 건의 통화, 전담 성공 엔지니어 (success engineers), 조달 주도형 로드맵 (procurement-driven roadmaps).

에이전시 계층 (agency layer)에 미치는 영향은 막연한 느낌 (vibes)이 아니라 구체적입니다. 이제 당신의 플랫폼 제품 로드맵은 연간 6자릿수 계약을 체결하고 기본 서비스 계약 (master service agreement)에 서명하는 고객을 위해 작성되고 있습니다. 웹훅 페이로드 (webhook payload)에서 화이트 라벨 (white-label) 문자열이 누락되었다는 당신의 지원 티켓은 그들의 컴플라이언스 검토 (compliance review) 뒤에 놓이게 됩니다. 캠페인 재시도 규칙 (campaign retry rule)에 대한 당신의 기능 요청은 그들의 조달 주기 (procurement cycle) 뒤에 놓이게 됩니다. 그것이 일상 업무에서 "엔터프라이즈 집중 (enterprise focus)"이 실제로 의미하는 바입니다. 그것은 마케팅 문구가 아닙니다. 그것은 우선순위 큐 (prioritization queue)입니다.

한편, 래퍼(wrapper) 시대의 가격 결정력은 반대 방향으로 증발했습니다. Voicerr는 이미 월 $28에서 $199로, 다시 $299로 인상되었으며, 이는 Trillet에 문서화된 7배에서 10배의 급등입니다. 그 이유는 상위(upstream) 비용이 그들 아래로 내려왔고, 이들이 다른 레버리지(lever)를 가질 수 없었기 때문입니다. 그들은 한 분기 동안 양방향 모두에서 손해를 입었습니다. 위로부터의 가격 결정력 상실, 아래로부터의 모델 상품화(model commoditization)가 진행된 것입니다. 인프라 계층이 이제 OpenAI 호출 하나만으로 해결되는 상황에 놓인 래퍼는 갈 곳이 없습니다.

현재 에이전시 운영자(3개에서 15개 클라이언트를 보유한 경우)에게는 세 가지 경로가 보입니다:

Pipecat과 OpenAI, Twilio 그리고 자체 연결고리(glue)를 이용한 DIY 방식. Pipecat은 2026년 4월 14일에 v1.0.0을 출시했기 때문에, 오케스트레이션 스캐폴딩(orchestration scaffolding)이 프로덕션 등급의 오픈 소스입니다. 정직한 비용으로 따지면, 여섯 번째 리테이너를 마감하기 전에 개발에 $4만~$6만 달러가 들고, 영구적인 온콜 로테이션도 필요합니다. 이는 공동 창업자 엔지니어를 보유하고 4개월의 시간이 있는 빌더에게는 현실적인 경로입니다. 이번 주 안에 새로운 에이전트를 출시하려는 에이전시에게는 적합한 경로는 아닙니다.
존재할 이유를 잃어가는 래퍼에 머무르는 것. 예전 가격 대비 7배에서 10배의 비용을 지불해야 합니다. 모든 상위(upstream) 가격 충격(pricing shock)을 물려받게 됩니다. 다음 '구독 업데이트' 이메일을 기다리세요.
에이전시를 위해 구축된 애플리케이션 계층 플랫폼으로 이동하는 것. CRM, 캠페인 엔진, 화이트 라벨 포털, 작업 공간 구조, 청구 표면(billing surface), A2P 제출 흐름(A2P submission flow), 녹음 및 전사(transcript) 파이프라인, 그리고 프롬프트 버전 관리 기능을 한곳에서 얻습니다. 플랫폼이 캐시 전략, 모델 라우팅, 상위 상업적 관계를 처리하도록 맡기세요. 수익성(spread)을 유지하세요.

Hermes가 이 상황에 대해 하는 일

Hermes는 AI 음성 에이전시를 위한 운영 플랫폼입니다. 이것은 위에서 언급된 세 번째 경로입니다. 우리는 Vapi의 래퍼가 아닙니다. Retell 위의 얇은 UI도 아닙니다. 우리는 인프라 회사들이 방금 떠나간 애플리케이션 계층 그 자체입니다.

가격 정책은 우리가 명시한 이후로 변함없이 유지됩니다. Starter 플랜은 월 $149로 300분의 포함 시간과 3개의 워크스페이스 (workspaces)를 제공합니다. Business 플랜은 월 $399로 1,000분의 포함 시간과 7개의 워크스페이스를 제공합니다. Agency 플랜은 월 $699로 2,000분의 포함 시간과 20개의 워크스페이스를 제공합니다. 초과 요금 (Overage)은 새로운 gpt-realtime-2 경제성에 따른 $0.18의 랜디드 코스트 (landed cost) 대비 분당 $0.24입니다. 또한 우리는 그 위에 멀티 모델 라우팅 (multi-model routing) 전략을 실행하므로, 캐시 히트율 (cache hit rate)은 이론적인 수준이 아니라 실제로 부하를 견딜 수 있는 (load-bearing) 수준입니다. 우리는 업스트림 관계 (upstream relationship)를 직접 운영하기 때문에 25%의 스프레드 (spread)를 고정할 수 있습니다. 래퍼 (Wrappers)들은 이를 약속할 수 없습니다. 그들은 비용 구조를 제어하지 못하며, 이미 7~10회에 걸친 가격 인상을 통해 그 사실을 증명했습니다.

애플리케이션 계층 (application layer)은 결과물 그 자체입니다. 화이트 라벨 (White-label)은 별도로 덧붙인 것이 아니라 네이티브 (native)로 구현되어 있습니다. 모든 워크스페이스는 자체 서브도메인 (subdomain), 커스텀 브랜딩 (custom branding), 최종 고객 포털 (end-client portal), 그리고 워크스페이스별 빌링 (per-workspace billing)을 갖추고 있습니다. CRM은 캠페인 엔진 (campaign engine)과 동일한 데이터베이스에 구축되어 있어, 통화 결과가 Zapier를 거치지 않고도 바로 리드 상태 (lead status)를 기록합니다. 캠페인 엔진은 재시도, 콜백 (callback) 예약, 상담원 연결, 그리고 A2P 10DLC 제출 ($30 패스스루 (pass-through), 마진 $0)을 조정하는 방법을 알고 있습니다. 빌링 인터페이스 (billing surface)는 포함된 시간과 초과된 시간의 차이를 인지합니다. 이 중 어느 것도 기능 로드맵 (feature roadmap)이 아닙니다. 이것은 실제 운영 중인 플랫폼이며, OpenAI의 API가 제공하지 않는 계층입니다.

영향을 받는 에이전시를 위한 실행 단계 (다음 분기가 아닌 이번 주에 실행할 것)

새로운 gpt-realtime-2 경제 모델에 따라 실제 분당 비용을 재계산하십시오. 지난 30일간의 상위 공급업체(Vapi, Retell, Voicerr 등) 인보이스를 모두 가져오십시오. 이를 사용된 총 시간(분)으로 나누십시오. 만약 귀하의 분당 최종 비용(landed cost)이 0.20달러를 상회하고 고객에게 분당 0.30달러에서 0.45달러를 청구하고 있다면, 모델 계층의 스프레드(spread)는 넓어지는 반면 귀하의 스프레드는 좁아지고 있는 것입니다. 그것이 바로 수익이 새고 있는 지점입니다.
현재 사용 중인 플랫폼에 제품 로드맵상에서 에이전시 티어(agency tier)가 어디에 위치하는지 서면으로 문의하십시오. 구체적으로 질문하십시오: "2026년 1분기에 일일 통화 100건 미만 운영자를 위해 출시된 새로운 기능은 무엇입니까?" 만약 답변이 엔터프라이즈 SSO, 감사 로그(audit logs), 전담 성공 엔지니어(dedicated success engineers), 또는 BPO를 위한 파트너 프로그램이라면, 이미 답을 얻은 것입니다.
모델이 아닌, 고객과 접하는 접점(client-facing surface)을 스트레스 테스트하십시오. 10개의 동시 통화, 30개의 동시 통화. 지연 시간(latency) 곡선을 관찰하십시오. 고객이 어떤 대시보드에 로그인하는지 확인하십시오. 이메일 확인 메일에 귀하의 도메인이 찍히는지, 아니면 "Powered by" 푸터가 붙어 있는지 확인하십시오. 이제 모델은 더 이상 귀하의 문제가 아닙니다. 애플리케이션 계층(application layer)이 문제입니다.
고객이 유튜브 튜토리얼을 통해 소식을 듣기 전에 먼저 알리십시오. Liam Ottley, Caleb Casas, Brendan Jowett, Daniel Walter는 아직 "gpt-realtime-2가 귀하의 AI 음성 에이전시 스택에 의미하는 바"에 대한 영상을 게시하지 않았습니다. 하지만 이번 주 내로 게시할 것입니다. 운영자 수준의 공지사항을 고객에게 먼저 보내십시오.
귀하가 통제할 수 없는 스택의 구성 요소들을 이동시키십시오. OpenAI의 가격 정책이나 Vapi의 고객 집중 분야, 또는 Synthflow의 엔터프라이즈 피벗(pivot)을 귀하는 통제할 수 없습니다. 귀하는 애플리케이션 계층을 직접 구축할 것인지, 경쟁 우위(wedge)를 상실한 래퍼(wrapper)로부터 빌려 쓸 것인지, 아니면 72시간 내에 새로운 에이전트를 라이브로 가동해야 하는 에이전시 운영자들을 위해 구축된 플랫폼에서 운영할 것인지를 선택할 수 있습니다.

자주 묻는 질문 (Frequently asked questions)

gpt-realtime-2가 분당 0.25달러에서 0.35달러이고 Hermes 초과 요금이 분당 0.24달러라면, 계산이 어떻게 성립할 수 있습니까?

Hermes는 캐시 설정 (cache configuration), 시스템 프롬프트 재사용 (system prompt reuse), 그리고 플랫폼 수준에서 조정된 호출당 텔레메트리 (per-call telemetry)를 갖춘 멀티 모델 라우팅 전략 (multi-model routing strategy)을 실행합니다. gpt-realtime-2에서 캐싱된 오디오 입력 (cached audio input) 비용은 100만 토큰당 32달러에서 100만 토큰당 0.40달러로 떨어지며, 이는 실제 아웃바운드 대화 (outbound conversation)에서 가장 지배적인 비용 항목이 80배 감소함을 의미합니다. 여기에 추론이 필요 없는 세그먼트(인사, 확인 질문, 예약된 콜백, 음성 메시지)를 위한 선택적 모델 라우팅 (selective model routing)을 결합하면, 최종 비용 (landed cost)은 분당 약 0.18달러에 도달합니다. 우리는 0.24달러를 청구합니다. 이는 세 가지 포함된 분 요금제($149 / 300분, $399 / 1,000분, $699 / 2,000분) 위에 고정된 25%의 스프레드 (spread)입니다. 에이전시 운영자는 캐시 히트 (cache hits)를 설계하거나 어떤 모델이 어떤 대화 세그먼트를 처리할지 선택할 필요가 없습니다. 플랫폼이 이를 수행합니다.

만약 OpenAI가 이제 모든 것을 하나의 API 호출로 제공한다면, 에이전시가 플랫폼을 사용할 이유가 전혀 없습니까?

그 이유는 플랫폼이 더 이상 '목소리'가 아니기 때문입니다. 플랫폼은 CRM, 캠페인 엔진 (campaign engine), 워크스페이스 구조 (workspace structure), 화이트 라벨 포털 (white-label portal), 과금 정산 (billing reconciliation), A2P 10DLC 제출, 리드 상태 쓰기 (lead status writebacks), 통화 기여도 분석 (call attribution), 녹음 저장소, 전사 파이프라인 (transcript pipeline), 지식 베이스 관리 (knowledge base management), 프롬프트 버전 관리 (prompt versioning), 재시도 로직 (retry logic), 그리고 고객용 대시보드입니다. 이 중 그 어떤 것도 gpt-realtime-2 엔드포인트 (endpoint)에 포함되어 제공되지 않습니다. 음성 인프라 (voice infrastructure)는 하나의 API 호출로 붕괴되었습니다. 애플리케이션 계층 (application layer)은 그렇지 않았습니다. 그것이 바로 에이전시가 구축한 플랫폼이 채우는 틈새 (wedge)입니다.

인프라가 저렴해졌으니, 이제 Pipecat과 OpenAI를 사용하여 직접 구축해야 할까요?

전담 엔지니어가 있고 4개월 정도의 시간을 허비할 여유가 있다면, 그렇습니다. Pipecat이 4월 14일에 v1.0.0 버전을 출시하면서 DIY(직접 구축) 경로가 더 깔끔해졌습니다. 하지만 고객이 5명 있고 이번 주 안에 새로운 에이전트(Agent)를 라이브로 운영해야 한다면, 아닙니다. 솔직한 계산을 해보자면, Pipecat, OpenAI, Twilio, CRM, 결제 인터페이스(Billing surface), 그리고 화이트 라벨 포털(White-label portal)을 결합하여 자체 스택을 구축하는 데는 여섯 번째 리테이너(Retainer) 계약을 체결하기 전까지 개발자 비용으로 4만 달러에서 6만 달러가 소요되며, 유지보수는 멈추지 않습니다. 플랫폼이 여전히 존재하는 이유는 애플리케이션 계층(Application layer)이 깊지 않고 넓기 때문입니다. 우리는 그것을 한 번 만들었습니다. 당신은 그 위에 고객으로부터 매달 1,500달러에서 3,000달러를 청구합니다.

이것이 당신에게 남기는 것

인프라 계층(Infrastructure layer)이 악의를 가지고 엔터프라이즈로 피벗(Pivot)한 것이 아닙니다. 모델 계층(Model layer)이 아래에서부터 인프라를 범용화(Commoditize)했기 때문에 피벗한 것이며, 남은 유일한 수익 확대 방안은 6자릿수 규모의 기업 고객(Logo)뿐이기 때문입니다. Vapi는 자신의 자본 구조(Cap table)를 위해 옳은 일을 했습니다. Synthflow도 자신의 자본 구조를 위해 옳은 일을 했습니다. OpenAI도 자신의 자본 구조를 위해 옳은 일을 했습니다. 그들 중 누구도 AI 음성 에이전시 소유주에게 다른 로드맵을 제공할 의무는 없습니다.

에이전시 계층(Agency layer)은 이 11일간의 창(Window)을 조기에 포착함으로써 자신들을 위해 옳은 일을 합니다. 인프라 계층이 졸업할 때 열리는 틈새(Wedge)는, 에이전시를 위해 특별히 구축된 애플리케이션 계층 플랫폼이 점유해야 할 틈새입니다. 빌더(Builder)들에 의한, 빌더들을 위한 플랫폼. 하나의 플랫폼. 당신의 브랜드. 당신의 마진. 월 149달러부터. 72시간 이내에 첫 번째 에이전트 라이브 가능.

원문은 buildwithhermes.com/blog/infra-layer-abandoned-agencies-eleven-days-2026-05-18에서 처음 게시되었습니다.