Retell은 11개월 동안 31번의 장애를 기록했습니다. 폴백 아키텍처(Fallback Architecture)는 어떤 모습이어야 할까요?
요약
Retell AI의 빈번한 장애 사례를 통해 인프라 의존성 관리의 중요성을 분석합니다. 단일 플랫폼 의존성을 탈피하고, TTS 제공업체나 클라우드 장애에 대비한 폴백 아키텍처 설계의 필요성을 강조합니다.
핵심 포인트
- 인프라 의존성은 반드시 실패한다는 가정이 필요함
- TTS 및 클라우드 인프라 장애가 서비스 실패로 직결됨
- SLA 가동 시간과 실제 사용자 경험 사이의 간극 이해
- 장애 발생 시 서비스 연속성을 위한 폴백 계획 수립 필수
전체 장애 기록 테이블과 폴백 체크리스트가 포함된 원문은 BuildWithHermes 블로그에 게시되었습니다.
StatusGator에 따르면, 지난 12개월 동안 31회 이상의 장애가 Retell AI 사용자들에게 영향을 미쳤습니다. 2026년 1월부터 추적을 시작한 IsDown은 약 5개월 동안 약 50건의 사건을 기록했습니다. Retell의 공식 상태 페이지(status page)에서 가장 최근에 확인된 장애는 2026년 4월 13일이었습니다.
이 수치들이 Retell이 나쁜 제품이라는 것을 의미하지는 않습니다. 이는 Retell이 인프라 의존성(infrastructure dependency)이며, 모든 인프라 의존성은 실패한다는 것을 의미합니다. 문제는 당신의 아키텍처(architecture)가 그 사실을 가정하고 있느냐 하는 것입니다.
Retell에서 보이스 AI (voice AI)를 운영하는 대부분의 에이전시들은 폴백 계획(fallback plan)을 가지고 있지 않습니다. 그들은 단일 플랫폼을 사용하고, 해당 플랫폼을 가리키는 클라이언트 에이전트 세트를 보유하고 있으며, 낮 시간 동안 플랫폼이 다운되었을 때 진행 중인 클라이언트 통화에 어떤 일이 발생하는지에 대한 대답을 가지고 있지 않습니다.
장애 기록
장애는 세 가지 범주로 나뉩니다:
-
TTS 제공업체 의존성 실패 (TTS provider dependency failures). 가장 눈에 띄는 사례는 "TTS provider openai is down"이라는 제목의 2025년 3월 14일 장애로, Retell의 OpenAI TTS에 대한 의존성이 에이전트 실패로 직접 전파되었습니다.
-
클라우드 인프라 장애 (Cloud infrastructure incidents). 2025년 10월 20일, AWS 장애로 인해 Retell 로그인 및 분석 기능이 4시간 49분 동안 실패했던 사례가 포함됩니다.
-
플랫폼 구성 요소 성능 저하 (Platform component degradations). 대시보드(Dashboard), 웹 통화(web call), 엔드 투 엔드 통화(end-to-end calling)는 각각 별도의 장애 이력을 보여줍니다. 이는 장애가 플랫폼 전체를 오프라인 상태로 만들지는 않더라도, 클라이언트가 활발하게 사용 중인 특정 구성 요소를 마비시킬 수 있음을 의미합니다.
"99.99% 가동 시간(uptime)"과 31건의 장애가 공존하는 방식
처음 읽었을 때는 이 수치가 앞뒤가 맞지 않습니다. '포 나인(Four nines, 99.99%)'은 연간 약 52분의 다운타임(downtime)을 허용합니다. 답은 정의의 문제입니다. 벤더(vendor)들은 서비스가 완전히 불가능한 상태를 기준으로 가동 시간(uptime)을 측정합니다. 반면 제3자 모니터링 도구는 부분적인 구성 요소 장애, 상승된 에러율(error rates), 그리고 호출 완료율이 낮아지더라도 0이 아닌 상태를 유발하는 상위 의존성(upstream dependency) 장애를 포함하여 감지 가능한 모든 성능 저하를 경고합니다.
상위 TTS(Text-to-Speech) 문제로 인해 호출의 15%가 실패하는 이벤트는 모니터링 관점에서는 장애(incident)이지만, 대부분의 호출이 여전히 완료되기 때문에 가동 시간 SLA(Service Level Agreement)를 트리거하지 않을 수도 있습니다.
대행사(agency) 입장에서 그 차이는 무의미합니다. 목요일 오후 아웃바운드 캠페인 중에 고객의 호출 15%가 실패한다면, 상태 페이지(status page)에 무엇이라고 적혀 있든 당신에게는 문제가 발생한 것입니다. 고객은 SLA를 보지 않습니다. 그들은 연결되지 않는 호출을 보고, 당신에게 무슨 일이 일어났는지 묻습니다.
장애 발생 시 무엇이 망가지는가
고객에게 미치는 영향의 심각도 순서에 따른 네 가지 사항입니다:
- 대기열 중간의 아웃바운드 호출이 발신되지 않음. 재시도 로직(retry logic)에 따라 일부 연락 대상자는 지정된 시간 내에 호출을 받지 못합니다. 시간 민감도가 높은 캠페인(예약 리마인더, 5분 이내 리드 팔로업)의 경우, 해당 연락 대상자들은 그대로 놓치게 됩니다.
- 인바운드가 무음(dead air)으로 연결됨. 전화를 받지 않는 AI 접수원은 접수원이 없는 것보다 더 나쁩니다. 왜냐하면 고객은 에이전트를 구매할 때 인간 폴백(human fallback)을 꺼두었기 때문입니다.
- 가시성(visibility)이 사라짐. 대시보드와 분석(analytics) 도구가 성능 저하의 일부가 된다면, 무엇이 실패했는지 또는 얼마나 많은 연락 대상자가 영향을 받았는지 고객에게조차 설명할 수 없게 됩니다.
- 책임이 당신에게 돌아옴. 최종 고객은 Retell과 아무런 관계가 없습니다. 그들의 계약 상대는 대행사입니다. 상위 단계에서 발생하는 모든 장애는 상업적으로 당신의 장애입니다.
진정한 폴백 아키텍처(Fallback Architecture)의 모습
수익을 창출하는 보이스 에이전트(voice agents)를 운영하는 대행사를 위한 최소 기능 폴백(Minimum viable fallback)은 다음과 같습니다:
- 자체 에이전트에 대한 독립적인 가동 시간 모니터링 (Independent uptime monitoring) (벤더의 상태 페이지가 아닌, 정해진 일정에 따른 합성 테스트 호출 (synthetic test calls)):
- 전화망 수준의 장애 극복 (Telephony-level failover): 에이전트가 N초 이내에 응답하지 않으면, 통신사가 사람의 번호나 콜백 기능이 포함된 음성 사서함으로 경로를 라우팅합니다. 이는 실패한 플랫폼 내부가 아닌 번호 계층 (number layer)에서 작동해야 합니다.
- 체크포인트 생성 및 재개 기능이 있는 캠페인 엔진 (Campaign engines that checkpoint and resume): 이를 통해 실행 중 사고가 발생하더라도 연락처가 조용히 누락되는 것이 아니라, 전화가 지연되어 발신되도록 합니다.
- 사전에 작성된 사고 통신 템플릿 (An incident comms template): 정의된 트리거(trigger)를 가진 고객용 템플릿입니다. 대행사는 장애 자체 때문이 아니라, 침묵(소통 부재) 때문에 고객을 잃습니다.
- 고객별로 "우리의 RTO(복구 목표 시간)는 무엇인가"에 대한 서면 답변 준비: 전화가 다시 흐르기까지 얼마나 걸리는지 말할 수 없다면, 당신은 아키텍처를 가진 것이 아니라 희망 사항을 가진 것뿐입니다.
플랫폼 계층의 핵심 (The platform-layer point)
대행사는 기본적인 API 위에 이 모든 것을 구축할 수 있습니다. 하지만 이는 일반적인 1~5인 규모의 대행사가 보유하지 못한 엔지니어링 시간을 필요로 합니다. 이것이 바로 캠페인 체크포인트 생성, 모니터링, 고객 통신 기능이 에이전트와 동일한 시스템 내에 존재하며, 개별 음성 벤더보다 한 단계 위에 있는 운영 플랫폼 (operating platform)에서 실행해야 하는 이유입니다.
이것이 Hermes가 취하는 설계 관점입니다: 대행사 지향적 운영 계층 (멀티 테넌트 워크스페이스, 재개 기능이 있는 캠페인 오케스트레이션, 네이티브 CRM, 단일 사용 내역 원장)을 구축함으로써, 벤더의 사고가 고객 관계를 잃게 만드는 사건이 아니라 당신이 관리할 수 있는 인프라 이벤트가 되도록 합니다. 월 $149부터 시작하며 300분의 통화 시간이 포함됩니다.
전체 사고 테이블, 출처 및 폴백 체크리스트: buildwithhermes.com
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기