우리가 AI 음성 스택을 선택한 방법: 비하인드 스토리

우리는 6주 동안 Bland AI, Vapi, Retell, 그리고 Air AI를 대상으로 지연 시간 (Latency), 호주 억양 인식 (Australian accent recognition), 그리고 에스컬레이션 신뢰성 (Escalation reliability)을 평가했습니다. 결과적으로 Twilio를 결합한 Retell이 승리했습니다. 600ms 미만의 응답 속도, 최고의 지역 억양 성능, 그리고 우리의 서비스 수준 협약 (SLA)이 요구하는 웹훅 (Webhook) 신뢰성을 보여주었기 때문입니다.

이런 상황을 상상해 보세요. 화요일 오전 6시 47분, Mildura 외곽의 농장에서 한 남자가 전화를 겁니다. 강한 억양, 불안정한 수신 상태, 그리고 디젤 펌프의 배경 소음이 들립니다. 그는 긴급 배관공이 필요합니다. 이미 세 군데의 번호로 전화를 시도한 상태입니다. 이것은 우리의 내부 데모 통화입니다. 우리는 모든 음성 AI 플랫폼에 이 통화를 반복해서 실행했습니다. 왜냐하면 만약 스택 (Stack)이 '농장의 Kev'를 감당할 수 있다면, 점심시간의 South Yarra에 있는 전문 클리닉도 감당할 수 있기 때문입니다.

우리가 처음 시도했던 플랫폼은 전화를 끊기 전까지 Kev에게

플랫폼 선택은 문제를 단순히 감내하는 것이 아니라 실제로 해결할 수 있게 해주는 핵심 요소입니다. Bland AI, Vapi, 그리고 Retell을 대상으로 우리가 테스트한 주요 기준은 무엇이었을까요? 우리는 각 플랫폼을 대상으로 6주 동안 7가지 테스트를 수행했으며, 요금제 제한에 구애받지 않도록 매달 $149.95의 크레딧 예산을 할당했습니다.

지연 시간 (Latency) — 발화자가 문장을 마친 시점부터 AI의 첫 번째 토큰이 들리기까지의 시간. 벤더의 주장(vendor claims)이 아닌 스톱워치와 통화 녹음으로 측정했습니다.
호주 억양 인식 (Australian accent recognition) — 내부 호주인 패널(Queensland, Victorian, Western Australian, Territorian 목소리)을 통한 50회의 테스트 통화. 단어 오류율 (Word error rate, WER)을 측정했습니다.
에스컬레이션 신뢰성 (Escalation reliability) — AI가 사람에게 업무를 넘겨야 할 때, 따뜻한 전환 (warm transfer)이 매번 성공적으로 이루어지는가?
웹훅 전달 (Webhook delivery) — CRM 기록을 트리거하는 500회의 통화. 수동 개입 없이 얼마나 성공적으로 전달되었는가?
목소리 자연스러움 (Voice naturalness) — 20명의 청취자를 대상으로 한 블라인드 A/B 테스트. 실제로 사람처럼 들리는가, 아니면 대본을 읽는 로봇처럼 들리는가?
중단 처리 (Interruption handling) — 발화자가 에이전트의 말을 끊었을 때, 우아하게 복구하는가 아니면 당황하는가?
대규모 운영 시 분당 비용 (Cost per minute at scale) — 랜딩 페이지의 표기 가격이 아닌, 실제 통화량에 따른 실제 가격.

우리는 "감성 지능 (emotional intelligence)"이나 "엔터프라이즈급 (enterprise-grade)" 같은 마케팅 기능에는 관심이 없었습니다. 우리가 중요하게 생각한 것은 월요일 오전 7시에 유료 고객이 전화를 걸었을 때, 전화가 실제로 제대로 작동하느냐였습니다.

우리의 테스트에서 각 플랫폼은 호주의 광범위한 지역 억양을 어떻게 처리했을까요? 솔직한 결과입니다.

50회의 호주 억양 패널 테스트에 대한 단어 오류율 (Word error rate):

Retell + Deepgram Nova 2 스트리밍 ASR : 3.1% WER
Deepgram을 사용한 Vapi : 4.8% WER
Bland AI : 11.2% WER (결정적 결함)
Air AI : 7.4% WER

Bland AI는 Queensland 및 Western Australia 지역의 목소리를 처리하는 데 심각한 어려움을 겪었습니다. Townsville 출신의 한 테스터는 너무 자주 잘못 알아들어서 통화 내용이 마치 Monty Python의 스케치처럼 변질될 정도였습니다. 멜번 CBD 지역만을 대상으로 하는 클리닉이라면 그냥 넘어갈 수도 있겠지만, 지역 발화자들을 포함하는 전국 단위의 기술직 (tradie) 네트워크라면 절대 용납할 수 없는 수준입니다.

Retell이 이번 라운드에서 승리한 이유는 우리가 자체 ASR (Deepgram Nova 2)을 연결할 수 있게 해주고, 호주 특화 용어들—교외 지역 이름, "RCD", "splitter", "bulk-billed", "after-hours callout"과 같은 기술직 전용 어휘—에 대한 키워드 부스트 (keyword boost)를 조정할 수 있게 해주었기 때문입니다. 이러한 수준의 제어 능력은 정확도 95%와 97%의 차이를 만듭니다. 그리고 그 2%의 격차가 대부분의 실제 운영 통화(production calls)의 성패를 결정짓는 지점입니다.

자연스러운 대화와 어색한 대화를 가르는 지연 시간(latency) 임계값은 무엇일까요? 수백 건의 실제 통화를 통해 측정한 우리의 경험칙은 다음과 같습니다:

600ms 미만: 사람과 대화하는 느낌을 줍니다. 통화자는 처음 30초 동안 그것이 AI라는 사실조차 눈치채지 못합니다.
600-900ms: 인지할 수 있지만 참을 만한 수준입니다. 약간 졸린 접수원과 대화하는 느낌입니다.
900-1,500ms: 어색합니다. 통화자가 말을 반복하기 시작합니다.
1,500ms 초과: 실패입니다. 통화자는 전화가 끊겼다고 생각하여 전화를 끊거나 에이전트의 말을 가로채며 말을 하기 시작합니다.

우리의 테스트 하네스(test harness)에서 측정한 첫 번째 토큰 지연 시간 (중앙값 / p95):

Retell + Twilio Media Streams: 540ms / 720ms
Vapi: 710ms / 1,100ms
Bland AI: 680ms / 980ms
Air AI: 890ms / 1,400ms

Vapi와 Retell은 중앙값(median) 측면에서는 비슷하지만, p95 꼬리(tail) 부분에서 Vapi가 우리를 실망시켰습니다. 20번의 통화 중 한 번이 1.1초에 도달한다는 것은 100번의 통화 중 5번은 어색하게 느껴진다는 것을 의미합니다. 하루에 수백 건의 통화를 처리할 때는 이것이 실제 비용 문제로 직결됩니다.

데이터 및 증명 계층 (The data and proof layer)
2024년 11월에 Twilio와 함께 Retell을 선택한 이후, 우리는 9개의 라이브 클라이언트를 통해 약 14,200건의 통화를 처리했습니다. 우리가 매주 추적하는 수치는 다음과 같습니다:

응답률 (Answer rate): 99.1% (2건의 장애 기록, 모두 Twilio 측 문제였으며 총 11분 소요)
웹훅 전달 (Webhook delivery): 99.97% (실패 시 사람에게 알림을 보내기 전 두 번 재시도함)
에스컬레이션 성공률 (Escalation success): 98.4%의 웜 트랜스퍼 (warm transfers)가 첫 번째 시도에 올바른 담당자에게 연결됨
예약 정확도 (Booking accuracy): 예약의 96.8%가 정확한 서비스 및 시간대에 배치됨

참고로, 자동화가 없는 호주 소상공인의 업무 시간 외 전화 미수신 문제는 약 30-45%에 달합니다. 우리의 라이브 클라이언트들은 현재 미수신율 4-6%를 기록하며 운영 중입니다.

기저의 인프라(plumbing)가 실제로 제대로 작동할 때, AI 음성 스택(AI voice stack)이 메울 수 있는 격차가 바로 이것입니다. 또한, 이는 2026년 AI 접수원(AI receptionists) 시장의 변화와 맞물려, 더 많은 호주 운영자들이 음성을 사후 고려 사항(afterthought)으로 취급하는 것을 멈추게 하는 흐름이기도 합니다.

솔직한 한계점
여기서부터는 스택이 여전히 어려움을 겪는 부분입니다. 유료 고객과의 실제 통화 중에 직접 깨닫게 하는 것보다 미리 솔직하게 말씀드리는 편이 낫기 때문입니다.

매우 소음이 심한 환경 — 피크 시간대의 카페, 건설 현장, 공회전 중인 오토바이, 강한 바람. Deepgram의 노이즈 제거(noise rejection) 기능은 훌륭하지만 완벽하지는 않습니다. 우리는 이를 위해 "잘 들리지 않습니다, 다시 시도할 수 있는 다른 번호가 있을까요?"라는 폴백(fallback) 로직을 연결해 두었습니다.
급격한 코드 스위칭 (Code-switching) — 통화자가 문장 중간에 영어와 만다린(Mandarin) 또는 베트남어를 섞어 사용하는 경우, 전사 모델(transcription model)이 혼란을 겪습니다. 이를 제대로 처리하려면 다국어 ASR(Automatic Speech Recognition)과 아직 출시하지 않은 라우팅 레이어(routing layer)가 필요합니다.
레거시 PBX 통합 — 만약 클라이언트가 SIP 트렁크(SIP trunk)가 없는 온프레미스(on-prem) Avaya 시스템을 운영 중이라면, 현장에 물리적인 박스(physical box)를 설치하지 않고는 연결할 수 없습니다. 약 5건 중 1건의 문의가 첫 대화에서 이 벽에 부딪힙니다.
새로운 배포 후 첫 48시간 — 우리가 예측하지 못한 예약 흐름의 에지 케이스(edge cases)가 실제 트래픽에서 항상 나타납니다. 우리는 서비스 오픈(go-live)이 끝이라고 생각하지 않습니다. 처음 이틀 동안은 모든 통화를 모니터링하며 거의 실시간으로 프롬프트(prompts)를 수동 조정합니다.

만약 어떤 벤더가 자사의 플랫폼에는 이러한 문제가 전혀 없다고 말한다면, 그들은 거짓말을 하고 있거나 아직 10,000건의 실제 운영 통화를 실행해 보지 않은 것입니다. 둘 중 어느 쪽도 당신의 전화 회선을 맡기고 싶은 대상은 아닐 것입니다.

FAQ

Q: 스택 비교에 사용된 가공되지 않은 벤치마크(benchmark) 데이터를 공유해 줄 수 있나요?
A: 짧은 버전은 위의 표에 있습니다. 만약 기존 고객이거나 잠재 고객으로서 400행 전체 스프레드시트 — 개별 점수가 매겨진 50개의 억양 테스트 통화, 벤더별 지연 시간 히스토그램(latency histograms), 통화 ID가 포함된 실패 로그 — 를 원하신다면, 저에게 이메일을 보내주세요. 바로 보내드리겠습니다. NDA(비밀유지계약)나 정보 차단(gatekeeping)은 없습니다.

Q: 왜 처음부터 직접 음성 스택을 구축하지 않나요?

자연스럽게 들리는 스트리밍 TTS (Text-to-Speech)를 만드는 것은 1년 내내 매달려야 하는 엔지니어링 팀의 업무이며, 저희는 고객에게 실제로 중요한 레이어, 즉 프롬프트 로직 (prompt logic), CRM 연동 (CRM wiring), 비즈니스 규칙 (business rules)에 더 집중하고 싶습니다. Retell은 까다로운 전화 기술 (telephony)과 스트리밍 오디오 (streaming audio)를 처리합니다. 저희는 AI가 Geelong 지역의 특정 배관공에게 화요일 오후 예약이 무엇을 의미하는지 이해하는 부분을 처리합니다.

시장이 진화함에 따라 스택을 얼마나 자주 재평가하나요? 저희는 6개월마다 새로운 경쟁사들을 대상으로 벤치마크 (benchmark)를 다시 실행합니다. 시장은 빠르게 움직이고 있습니다. Retell은 2024년 말에 2,200만 달러를 유치했고, Vapi는 매주 새로운 기능을 출시하고 있으며, 2026년에는 적어도 하나 이상의 강력한 새로운 경쟁자가 등장할 것으로 예상합니다. 저희는 특정 벤더 (vendor)에 얽매이지 않습니다. 다른 플랫폼이 저희의 7가지 기준에서 Retell을 앞서는 날, 저희는 바로 이전할 것입니다.

AI 음성 에이전트 (AI voice agents)를 대규모로 운영할 때 가장 큰 기술적 리스크는 무엇인가요? 침묵의 실패 (Silent failures)입니다. 서비스 중단 (outages)이 아닙니다. 서비스 중단은 대시보드에서 확인할 수 있습니다. 진짜 문제는 AI는 예약을 완료했다고 생각하고, 통화자는 예약이 되었다고 생각하지만, CRM에는 웹훅 (webhook)이 전혀 전달되지 않는 조용한 실패 상황입니다. 저희는 15분마다 실행되는 합성 테스트 호출 (synthetic test calls), 지수 백오프 (exponential backoff)를 적용한 웹훅 재시도 (webhook retries), 그리고 Retell 통화 로그와 CRM 간의 일일 대조 (daily reconciliation)를 통해 이를 완화합니다.

플랫폼 선택이 호주 억양 인식 품질에 영향을 미치나요? 네, 엄청난 영향을 미칩니다. 음성 AI 오케스트레이션 레이어 (voice AI orchestration layer)보다 ASR (자동 음성 인식) 모델이 더 중요합니다. Retell 덕분에 저희는 커스텀 키워드 부스팅 (custom keyword boosting) 기능이 포함된 Deepgram Nova 2로 교체할 수 있었고, 이를 통해 WER (단어 오류율)을 약 5%에서 약 3%로 낮출 수 있었습니다. 자체 번들 ASR에 사용자를 가두는 플랫폼을 사용한다면, 그들이 출시하는 정확도 수준에 머물 수밖에 없습니다. 호주의 지역 억양의 경우, 그것은 대개 충분하지 않습니다.

저와 30분간 상담을 예약하세요. Book 30 minutes with me. Book 30 minutes with me. 이것이 귀하의 비즈니스에 적합한지 솔직하게 말씀드리겠습니다. theautomate.io Originally published at theautomate.io .

우리가 AI 음성 스택을 선택한 방법: 비하인드 스토리

요약

핵심 포인트

댓글