에이전시를 위한 Vapi vs Retell: 둘 다 인프라 도구이며, 어느 것도 에이전시 플랫폼은 아니다
요약
Vapi와 Retell은 음성 AI 에이전시를 위한 완성형 플랫폼이 아닌, 개발자를 위한 음성 API 인프라 도구입니다. Vapi는 기업용 거버넌스와 예측 가능성에 집중하며 대규모 투자를 유치했고, Retell은 뛰어난 개발자 경험을 제공하며 시장을 점유하고 있습니다.
핵심 포인트
- Vapi와 Retell은 에이전시 플랫폼이 아닌 음성 AI 인프라(API) 도구임
- Vapi는 Amazon Ring 등 대기업을 겨냥한 거버넌스와 예측 가능성 강조
- Retell은 깔끔한 문서화와 우수한 개발자 경험(DX)을 강점으로 보유
- 에이전시 운영자는 API 엔진과 완성된 서비스 플랫폼을 구분해야 함
이번 달 초 Vapi는 5억 달러의 기업 가치로 5,000만 달러 규모의 Series B 투자를 유치하며, Amazon Ring, Intuit, New York Life를 주요 고객(anchor customers)으로 지명했습니다. 비슷한 시기에 Retell은 자체 비교 콘텐츠를 통해 본격적인 사용을 위한 엔터프라이즈 티어(enterprise tier) 가격을 연간 8,000달러부터 시작하는 것으로 책정했습니다. 두 회사 모두 엔터프라이즈 음성 AI 인프라(voice AI infrastructure) 시장을 점유하기 위해 전력 질주하고 있습니다. Vapi의 CEO는 Series B 발표에서 다음과 같이 명확하게 밝혔습니다: "Vapi는 음성 AI의 다음 단계가 거버넌스(governance)와 예측 가능성(predictability)에 의해 정의될 것이라고 봅니다."
거버넌스와 예측 가능성. 만약 당신이 고객당 월 2,000달러를 청구하는 5명의 고객을 보유한 AI 음성 에이전시를 운영하고 있다면, 이 문장은 당신을 위해 쓰인 것이 아닙니다. 이는 감사 추적(audit trails), SLA(Service Level Agreement) 약속, 그리고 법무팀과의 검토 회의에 참석할 수 있는 벤더를 필요로 하는 Amazon Ring의 조달 담당자를 위한 기업용 언어(enterprise-speak)입니다. 이는 당신이 다음 리테이너(retainer) 계약을 체결하거나 금요일까지 다음 고객용 에이전트를 배포하는 데 필요한 내용이 아닙니다.
이 포스트는 에이전시 운영자들이 계속해서 요청해 온 직접적인 비교입니다: Vapi vs Retell, 3명에서 15명의 고객을 운영하는 에이전시에게 각각 실제로 드는 비용, 각 서비스의 부족한 점, 그리고 음성 API 요율만을 개별적으로 비교하는 것을 멈췄을 때 보이는 전체적인 모습에 대해 다룹니다.
Vapi와 Retell의 실체
Vapi와 Retell은 모두 음성 API 인프라 플랫폼입니다. 이들은 개발자에게 음성 통화에 대한 프로그래밍 방식의 제어권(programmatic control)을 제공합니다: LLM(Large Language Model) 통합, 턴 테이킹(turn-taking) 로직, 함수 호출(function calling), 웹훅(webhooks), 지연 시간 최적화(latency optimization), 그리고 PSTN(Public Switched Telephone Network) 연결성 등이 포함됩니다. 이들은 각자의 분야에서 매우 뛰어납니다. Vapi 팀은 Ring의 엔지니어링 조직이 2주간의 구현을 거친 후 Amazon Ring의 인바운드 콜 볼륨을 처리할 수 있을 만큼 기술적으로 인상적인 것을 구축했습니다. Retell은 진정으로 깔끔하고 문서화가 잘 된 개발자 경험(developer experience)을 구축했습니다.
둘 중 어느 것도 에이전시 플랫폼은 아닙니다. 이 문장은 비판이 아닙니다. 이는 카테고리에 대한 설명입니다. API 엔진은 자동차가 아닙니다. 그것은 엔진입니다. 1인 에이전시 운영자는 Amazon Ring의 엔지니어링 팀이 아닙니다. 그들에게는 자신의 로고가 새겨진 완성된 자동차가 필요하며, 고객이 세 가지 별도의 도구에 로그인할 필요 없이 열어볼 수 있는 작동하는 대시보드가 필요합니다.
시장의 혼란은 AI 음성 기술의 초기 2년 동안, "Vapi를 기반으로 구축하기" 또는 "Retell을 기반으로 구축하기"가 에이전시가 하는 일이었다는 점입니다. 당신은 API를 CRM을 위한 GoHighLevel에, 워크플로 자동화(workflow automation)를 위한 Zapier에, 결제를 위한 Stripe에, PSTN을 위한 Twilio에 연결하고, 화이트 라벨(white-label) 대시보드를 직접 구축하거나 구매했습니다. 많은 에이전시가 여전히 그 스택(stack)을 운영하고 있습니다. 도구 가격이 저렴하고 고객이 인내심이 있을 때는 그것이 작동했습니다. 하지만 고객이 5명으로 늘어나고, 두 번째 개발자가 필요해지며, 네 명의 서로 다른 벤더(vendor)로부터 받은 인보이스(invoice) 합계가 고객에게 청구한 금액과 일치하지 않아 결제 분쟁이 발생하면 그 체계는 무너집니다.
실제 비용 비교: Vapi vs Retell vs 에이전시 스택
모든 인보이스를 합산했을 때 실제 에이전시 스택이 비용이 얼마나 드는지 여기 있습니다.
| 도구 | 월간 비용 (고객 3-5명 기준) |
|---|---|
| Vapi (월 1,000분) | ~$50 (셀프 서비스) ~ $200+ (확장 시) |
| ... |
이 주제에 관한 모든 Reddit 스레드를 장악하고 있는 분당 요금 비교는 틀린 것이 아닙니다. 다만 불완전할 뿐입니다. Vapi의 셀프 서비스 요금은 Hermes의 초과 요금(overage rate)보다 분당 비용이 더 저렴합니다. Retell의 개발자 플랜(developer plan)도 경쟁력이 있습니다. 하지만 두 수치 모두 API 위에서 에이전시를 운영하기 위해 필요한 다섯 가지 다른 도구, 통합(integration) 상태를 유지하기 위한 개발 시간, 또는 고객의 사용량이 세 가지 서로 다른 대시보드에서 일치하지 않을 때 매달 발생하는 결제 조정(billing reconciliation) 시간은 포함하고 있지 않습니다.
Vapi와 Retell이 에이전시 관점에서 실제로 부족한 점
부족한 부분은 음성 품질이나 지연 시간(latency)에 관한 것이 아닙니다. Vapi와 Retell 모두 음성 레이어(voice layer)에 진지하게 투자해 왔습니다. 격차는 API 그 이상과 주변의 모든 것에 관한 것입니다.
화이트 라벨 클라이언트 포털 (White-label client portal). Vapi와 Retell 모두 고객이 귀사의 브랜드 아래에서 로그인할 수 있는 고객용 대시보드를 제공하지 않습니다. 이는 제품의 설계상 실수(oversight)가 아니라 디자인 결정입니다. 이들은 개발자 도구(developer tools)이기 때문입니다. 귀사의 고객은 개발자가 아닙니다. Vapi 또는 Retell 연동 위에 브랜드화된 고객 경험을 구축하려면 프론트엔드 개발자(frontend developer), 호스팅 레이어(hosting layer), 그리고 인증 시스템(auth system)이 필요합니다. 이는 첫 번째 고객이 대시보드를 보기 전까지 3주에서 6주간의 작업이 필요함을 의미합니다.
네이티브 CRM (Native CRM). Vapi와 Retell에는 CRM이 없습니다. 대신 GoHighLevel을 추가해야 합니다. GoHighLevel은 최소 월 297달러를 청구하며, 자체적인 학습 곡선(learning curve)이 있고, Vapi나 Retell에서 통화 데이터를 연락처 레코드로 전송하기 위한 별도의 연동 작업이 필요합니다. 두 플랫폼 중 하나라도 API를 업데이트하면 동기화가 깨집니다. 그리고 귀사가 이를 수정해야 합니다. 그것이 귀사의 아침 업무가 됩니다.
캠페인 오케스트레이션 (Campaign orchestration). Vapi에서 아웃바운드 캠페인(Outbound campaigns)을 실행하려면 트리거 로직(triggering logic)을 스크립트로 작성하고, 재시도 큐(retry queue)를 관리하며, 연락처 목록 인입(ingestion)을 처리하고, 통화 완료 시 CRM 레코드를 업데이트하기 위한 웹훅 파이프라인(webhook pipeline)을 설정해야 합니다. 이 모든 단계는 각각 커스텀 빌드(custom build) 과정입니다. 반면 Hermes에서 캠페인은 연락처 목록 업로드, 재시도 규칙, 일정, 완료 트리거가 포함된 UI 흐름(UI flow)입니다. 빌드 시간의 차이는 며칠 대 몇 시간 단위로 측정됩니다.
고객을 위한 가격 투명성 (Pricing transparency for clients). 고객이 "이번 달에 몇 분을 사용했나요?"라고 물었을 때, Vapi 또는 Retell 스택에서는 음성 API에서 보고서를 추출하고, 이를 Twilio 사용 로그와 대조하여 수동으로 요약본을 만들어야 답변할 수 있습니다. Hermes에서는 워크스페이스 대시보드가 고객에게 사용량을 실시간으로 보여줍니다. 리테이너(retainer) 비용을 청구하고 45분간의 감사(audit) 없이 초과 사용량을 정당화해야 할 때, 이는 결코 작은 디테일이 아닙니다.
"처음에는 유연성이 좋아서 마음에 들었지만, 동시성(concurrency)이 높아지는 순간 음성이 지연되기 시작했고 대화가 더 이상 자연스럽게 느껴지지 않았습니다."
Reddit의 에이전시 소유자, Retell의 비교 분석에서 인용됨
동시성 (concurrency) 문제는 가격 구조가 중요한 것과 동일한 이유로 중요합니다. Vapi의 가장 큰 고객(Amazon Ring)이 통화량을 두 배로 늘리면, 용량 할당 (capacity allocation)이 이동합니다. 캠페인 기간 동안 30개의 통화를 동시에 실행하는 에이전시 소유자는, 해당 기업의 성장 궤적상 인프라가 최적화된 대상 고객이 아닙니다. 이는 추측이 아닙니다. 기업용 매출을 기반으로 구축된 5억 달러 가치 평가의 구조적 결과입니다. 플랫폼은 자신이 잃어서는 안 될 고객에게 최적화됩니다.
"Vapi vs Retell" 프레임워크가 실제 의사결정을 놓치는 이유
이 분야의 모든 비교 게시물은 질문을 "당신의 사용 사례에 어떤 API가 더 나은가"로 설정합니다. Retell의 자체 블로그에도 Vapi vs Synthflow에 대한 상세한 분석이 있습니다. Vapi 역시 비교 콘텐츠를 보유하고 있습니다. 모든 래퍼 (wrapper) 기업은 자신들을 다른 모든 래퍼와 비교하는 랜딩 페이지를 가지고 있습니다. SEO (검색 엔진 최적화) 게임은 "vs" 키워드를 점유하기 위한 경주입니다.
에이전시 소유자에게 실제로 중요한 프레임은 "어떤 API 레이어가 더 저렴한가"가 아니라 "고객 서비스 제공 대신 인프라 관리에 매주 몇 시간을 소비하고 있는가"입니다. 만약 그 답이 4시간 이상이라면, 당신은 인프라 세금을 지불하고 있는 것입니다. 그 세금은 실제 돈이며, 실제 시간이고, 실제 기회비용입니다.
Vapi는 셀프 서비스 (self-serve) 기준 분당 $0.05입니다. Retell의 요율도 유사한 등급에서 경쟁력이 있습니다. Hermes의 초과 요금은 분당 $0.24입니다. GoHighLevel 구독료, Zapier 청구서, Twilio PSTN 비용, 화이트 라벨 (white-label) 대시보드, 그리고 개발자 작업 시간을 더하기 전까지는 Hermes의 단순 분당 요금이 더 나빠 보입니다. 하지만 전체 수치를 계산해 보면, 월 $399의 Business 플랜이나 월 $699의 Agency 플랜이 대개 더 유리하게 나옵니다. 항상 그런 것은 아니지만 대개 그렇으며, 3개 이상의 클라이언트를 운영하는 에이전시에게는 항상 그렇습니다.
Hermes가 이 문제에 대해 하고 있는 일
Hermes는 API 계층 (API layer)에서 Vapi나 Retell을 이기려고 하지 않습니다. 우리는 인프라 계층 (infrastructure layer) 위에서 작동하며 그 관계를 직접 관리합니다. 이것이 바로 우리가 상위 단계의 가격 변동을 여러분에게 전가하지 않고도, 초과 사용 분당 25%의 스프레드(원가 $0.18 대비 분당 $0.24)를 확보할 수 있는 이유입니다. Voicerr의 7배에서 10배에 달하는 가격 인상은 그들이 상위 비용 구조를 통제하지 못했기 때문에 발생했습니다. 우리는 통제합니다.
우리의 제품은 API 상위 계층입니다: 귀하의 브랜드로 제공되는 화이트 라벨 클라이언트 포털 (white-label client portal), 네이티브 CRM, 재시도 로직 (retry logic) 및 리스트 관리 기능이 포함된 캠페인 오케스트레이션 (campaign orchestration), 워크스페이스 레벨의 빌링 (workspace-level billing), 마진 $0에 $30의 비용으로 처리되는 A2P 10DLC 제출 처리, 통화 녹음, 전사 파이프라인 (transcript pipeline), 프롬프트 버전 관리 (prompt versioning), 그리고 고객이 실제로 읽을 수 있는 리포팅 계층 (reporting layer) 등이 포함됩니다. 귀하의 고객은 Hermes라는 단어를 절대 보지 못합니다. 통화를 구동하는 인프라 계층은 우리의 운영적 관심사이지, 귀하의 관심사가 아닙니다.
가격 정책: Starter 플랜은 월 $149이며 300분의 포함 시간과 3개의 클라이언트 워크스페이스가 제공됩니다. Business 플랜은 월 $399이며 1,000분의 포함 시간과 7개의 워크스페이스가 제공됩니다. Agency 플랜은 월 $699이며 2,000분의 포함 시간과 20개의 워크스페이스가 제공됩니다. 첫 번째 에이전트는 72시간 이내에 라이브로 운영 가능합니다. 빌더(builders)가 빌더를 위해 만듭니다.
현재 Vapi 또는 Retell을 사용 중인 에이전시를 위한 실행 단계
- 음성 API 인보이스뿐만 아니라 전체 스택 비용 감사를 실시하세요. 음성 API, CRM, 자동화(automation), 전화 시스템(telephony), 대시보드, 모든 개발 계약자(dev contractor)의 작업 시간 등 스택에 포함된 모든 도구의 지난 3개월간 명세서를 확인하세요. 이를 활성 고객 수로 나눕니다. 고객에게 비용을 청구하기 전, 고객당 인프라 비용이 월 $200를 초과한다면 계산 방식이 당신에게 불리하게 작용하고 있는 것입니다. GoHighLevel, Zapier, Twilio의 비용은 리테이너(retainer) 수익보다 더 빠르게 복리로 증가하기 때문에, 규모를 확장할수록 수치는 더 악화됩니다.
- 지난 30일 동안의 통합(integration) 작업 시간을 계산하세요. 작동이 중단된 모든 웹훅(webhook), 재구축이 필요했던 모든 Zap, 음성 API와 CRM 사이의 모든 동기화 오류, 고객 대시보드에 데이터가 없어 직접 맞춤형 보고서를 추출해야 했던 모든 순간을 포함하세요. 그 시간들은 인프라 세금(infrastructure tax)으로 전환되어 버린 청구 가능한 시간(billable hours)입니다. 그 수치를 기록해 두세요.
- Vapi와 Retell의 엔터프라이즈 로드맵 언어를 읽어보세요. 제품 변경 로그(changelog)가 아닙니다. 투자자 및 언론용 언어를 보라는 것입니다. "거버넌스(Governance) 및 예측 가능성(predictability)", "엔터프라이즈급 컴플라이언스(Enterprise-grade compliance)", "앵커 고객(Anchor customer)" 같은 표현들 말입니다. 그것이 바로 엔지니어링 팀이 향해 가고 있는 제품의 방향입니다. 제품 로드맵이 Amazon Ring에 맞춰 조정되어 있다면, 더 나은 캠페인 재시도 규칙(campaign retry rule)을 원하는 당신의 기능 요청은 수많은 대기열 뒤로 밀려나게 됩니다.
- 고객 캠페인이 시작되기 전에 동시성 한계(concurrency ceiling)를 테스트하세요. 현재 플랫폼에서 20개의 동시 통화를 실행해 보세요. 50개도 실행해 보세요. 각 단계에서의 지연 시간(latency)을 기록하세요. 위에서 인용한 에이전시 소유주는 플랫폼을 도입한 후 규모가 커짐에 따라 성능 저하를 경험했습니다. 실제 캠페인 도중이 아니라 테스트 환경에서 당신의 한계를 찾아내세요.
- 이전(migration) 비용을 이론이 아닌 실제 시간으로 평가하세요. 플랫폼을 이전하는 것은 몇 달이 걸리는 프로젝트라는 것이 일반적인 가정입니다. Vapi 또는 Retell에 GHL과 Zapier를 함께 사용하는 에이전시의 경우, 통합 플랫폼으로의 실제 이전은 보통 1~2주 정도 소요됩니다. 에이전트들은 새 시스템에서 재구축되며, 고객 워크스페이스는 기존 연락처 데이터를 가지고 즉시 생성됩니다.
대부분의 통신사에서 전화번호 이동(porting)은 중단 없이 이루어집니다. 장벽은 기술적인 문제라기보다 심리적인 문제입니다.
자주 묻는 질문 (Frequently asked questions)
이미 Vapi나 Retell을 사용 중인데, 교체해야 하나요?
그것은 귀하가 그것들을 무엇을 위해 사용하고 있는지에 따라 다릅니다. 만약 귀하가 단일 고객을 위해 맞춤형 음성 제품을 구축하는 개발자라면, Vapi나 Retell은 합리적인 API 선택지입니다. 하지만 여러 고객을 관리하고, 월정액(retainer)을 청구하며, 귀하의 자체 브랜드로 운영하는 에이전시를 운영하고 있다면, 귀하는 최소 5개의 다른 도구를 상단에 이어 붙이고 고객의 유스케이스(use case)가 바뀔 때마다 글루 코드(glue code)를 작성하고 있는 셈입니다. 문제는 교체 여부가 아닙니다. 문제는 귀하의 시간 중 얼마만큼이 인프라 관리(infrastructure management)에 소요되고, 얼마만큼이 고객 인도(client delivery)에 소요되는가 하는 점입니다. 저희가 대화하는 대부분의 에이전시 운영자들은 그 수치를 30~40%로 잡습니다. 그것이 바로 Hermes가 제거하기 위해 만들어진 업무 내용입니다.
Hermes는 Vapi 및 Retell이 하지 못하는 무엇을 하나요?
전체 목록은 길지만, 구조적인 차이점은 다음과 같습니다: Vapi와 Retell은 음성 API (voice API)를 제공합니다. 귀하는 여전히 화이트 라벨(white-label) 고객 포털, CRM, 캠페인 엔진, 아웃바운드 다이얼러(outbound dialer), 결제 정산(billing reconciliation), A2P 10DLC 처리, 통화 녹음, 그리고 고객이 볼 수 있는 리포팅 레이어(reporting layer)가 필요합니다. Hermes는 이 모든 것을 귀하의 브랜드 아래 하나의 플랫폼으로 제공합니다. 귀하의 고객은 귀하의 로고가 박힌 대시보드에 로그인합니다. 그들은 'Hermes'라는 단어를 결코 보지 못합니다. Starter 플랜은 월 $149이며 300분의 통화 시간이 포함되어 있습니다. Agency 플랜은 월 $699이며 2,000분의 통화 시간과 20개의 고객 워크스페이스가 포함됩니다. 대안은 Vapi 또는 Retell에 더해, 5개의 다른 도구에서 나오는 5개의 인보이스(invoice), 그리고 글루 코드가 계속 작동하도록 유지할 개발자를 두는 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기