본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 16. 07:38

견적은 분당 0.07달러였지만, 청구서는 그렇지 않았습니다.

요약

음성 에이전트 구축 시 발생하는 실제 비용은 단순 엔진 비용보다 훨씬 높습니다. 모델, 전화 기술, TTS 등 4가지 레이어를 모두 고려해야 정확한 예산 수립이 가능합니다.

핵심 포인트

  • 음성 엔진 비용(0.07달러)은 전체 운영 비용의 일부일 뿐임
  • 실제 운영 비용은 분당 0.13~0.31달러 수준으로 형성됨
  • 정확한 예산을 위해 모델, 전화 기술, TTS 등 4개 레이어 확인 필요
  • 공급업체의 단일 레이어 견적과 엔드 투 엔드 비용 간의 차이 주의

요약 (TL;DR)

  • 분당 0.07달러라는 음성 에이전트 (Voice Agent) 비용 견적은 사실입니다. 다만, 그것이 전체 청구 금액은 아닙니다.
  • 실제 운영 환경에서 음성 에이전트 비용은 모델 (Model), 전화 기술 (Telephony), 그리고 TTS (Text-to-Speech) 비용을 모두 합산하면 분당 0.13달러에서 0.31달러 사이가 됩니다.
  • 음성 AI (Voice AI) 예산을 세우고 있다면, 단 하나의 레이어(Layer)가 아닌 네 가지 레이어 전체를 고려해야 합니다.

그 0.07달러라는 수치는 정확합니다. 그것은 음성 엔진 (Voice Engine) 비용입니다. 실제 운영 빌드에서의 음성 에이전트 비용은 통화를 실제로 작동하게 만드는 모든 요소를 계산하면 완전히 다른 숫자가 됩니다.

Hook slide showing the gap between quoted and actual voice agent cost

왜 0.07달러라는 견적이 미끼 상품(Bait and Switch)처럼 느껴질까요?

이것은 미끼 상품이 아닙니다. 범위의 불일치 (Scope Mismatch)입니다. 공급업체는 4계층 스택 중 단 하나의 레이어만을 견적에 포함했습니다.

음성 엔진 (Voice Engine)은 실시간 오디오를 처리합니다. 대부분의 플랫폼이 가격 페이지에서 가장 먼저 내세우는 부분이 바로 이 부분입니다. 이는 가장 눈에 띄는 구성 요소이며, 실제로 그 정도 가격대가 형성되어 있습니다. 하지만 음성 엔진은 사고(Think)하지 않으며, 전화를 라우팅(Route)하지도 않고, 텍스트를 음성으로 변환하지도 않습니다. 그저 오디오를 이동시킬 뿐입니다.

잠재 고객이 "비용이 얼마나 드나요?"라고 물을 때, 그들의 의도는 엔드 투 엔드 (End-to-End) 비용을 의미합니다. 대부분의 가격 페이지는 그 질문에 답하지 않습니다. 훨씬 더 작은 질문에만 답할 뿐입니다.

이것이 바로 고객이 계약을 완료한 후 음성 에이전트 비용에 놀라게 되는 이유입니다. 누군가 거짓말을 했기 때문이 아니라, 질문과 답변이 서로 다른 대상을 향하고 있었기 때문입니다.

Slide showing the engine-only component of voice agent cost

LLM은 음성 에이전트 비용에 무엇을 추가하나요?

언어 모델 (LLM)은 음성 에이전트 비용 스택에서 가장 변동성이 큰 부분이며, 종종 가장 큰 의외의 비용 요인이 됩니다.

에이전트가 말을 할 때마다 모델을 통해 프롬프트 (Prompt)를 실행하게 됩니다. 더 빠르고 저렴한 모델은 비용을 낮게 유지해 줍니다. 반면, 더 유능한 모델은 호출 (Call)당 더 많은 비용이 발생합니다. 이들 사이의 격차는 실재하며, 올바른 선택은 귀하의 유스케이스 (Use case)가 실제로 어느 정도의 추론 (Reasoning) 능력을 필요로 하는지에 달려 있습니다.

이것이 바로 저렴한 모델 우선, 재시도 시 비싼 모델 사용 패턴 (cheap-first, expensive-on-retry pattern)이 존재하는 정확한 이유입니다. 단순한 대화 단계는 더 저렴한 모델로 라우팅 (Routing)하고, 호출 내용이 요구할 때만 더 무거운 모델로 격상시키는 방식입니다. 이는 통화 품질을 희생하지 않으면서 프로덕션 (Production) 환경에서 음성 에이전트 비용을 제어할 수 있는 가장 실질적인 방법 중 하나입니다.

대량의 호출을 처리하고 있다면, 모델 계층 (Model layer)은 비용 통제력이 유지되느냐 무너지느냐를 결정짓는 지점이 됩니다.

Slide showing the LLM layer in the voice agent cost stack

전화 기술 (Telephony)은 청구서에 무엇을 추가하는가?

전화 기술 (Telephony)은 데모에서 아무도 언급하지 않는 부분입니다. 또한 피할 수도 없습니다.

호출은 어딘가로 전달되어야 합니다. Twilio, Vonage를 사용하든 플랫폼 번들 솔루션을 사용하든, PSTN (Public Switched Telephone Network) 측면에서 분당 요금이 발생합니다. 일부 플랫폼은 이를 포함하지만, 대부분은 그렇지 않습니다. 호주 휴대폰 번호로 전화를 건다면, 호주 종료 요금 (Termination rates)을 지불하게 됩니다.

ACMA의 번호 및 인프라 가이드라인 (ACMA's numbering and infrastructure guidance)에 따르면, 특정 번호 범위로의 호출은 서로 다른 비용 구조를 가집니다. 귀하의 유스케이스에 고정 요금제 기반의 글로벌 가격 정책이 적용된다고 가정하기 전에 확인해 볼 가치가 있습니다.

전화 기술 (Telephony)만으로는 예산을 초과하지 않을 것입니다. 하지만 이를 모델링에 포함하지 않았다면, 실제 호출이 흐르기 시작할 때 유닛 이코노믹스 (Unit economics)가 예상보다 훨씬 나빠 보일 것입니다.

Slide showing telephony as a component of total voice agent cost

TTS(Text-to-Speech)가 음성 에이전트 비용에 미치는 영향은 무엇인가요?

TTS는 글자당 비용은 저렴하지만, 에이전트가 내뱉는 모든 발화(utterance)마다 실행됩니다. 이것이 비용을 누적시킵니다.

에이전트가 말하는 모든 단어는 TTS 엔진을 거칩니다. ElevenLabs, Deepgram, Cartesia, 또는 플랫폼 네이티브 옵션들이 있습니다. 이들은 모두 가격 책정 방식이 다릅니다. 어떤 것은 글자(character) 단위로 청구되고, 어떤 것은 분(minute) 단위로 청구됩니다. 어떤 것은 음성 플랫폼 티어(tier)에 포함되어 있습니다.

제공업체 간의 품질 격차는 실재합니다. 저렴한 TTS 음성은 로봇처럼 들립니다. 이는 아웃바운드 콜(outbound calls)의 전환율에 영향을 미치며, 특히 신뢰가 전부인 금융 중개나 보험 분야에서는 더욱 중요합니다. 단 몇 센트의 소수점 차이를 아끼기 위해 통화의 가치를 떨어뜨리는 목소리를 선택하지는 않을 것입니다.

음성 에이전트 비용의 전체적인 구조는 다음과 같습니다:

  • 음성 엔진 (실시간 오디오 라우팅)
  • 언어 모델 (Language model, 추론 및 응답 생성)
  • 전화 시스템 (Telephony, PSTN 콜 라우팅 및 종료)
  • TTS (Text-to-speech, 모델 출력을 오디오로 변환)

이 네 가지 모두 실제 비용입니다. 네 가지 모두 모든 통화에서 실행됩니다. 분당 $0.13에서 $0.31 사이의 범위는 이러한 현실을 반영합니다.

Slide showing TTS as the final layer in voice agent cost

그렇다면 어떻게 음성 에이전트 비용을 통제할 수 있을까요?

모델 선택과 콜 설계(call design)가 당신이 실제로 제어할 수 있는 두 가지 레버입니다.

전화 시스템(telephony) 요율은 협상하기 어렵습니다. TTS는 대부분 품질 티어에 의해 고정되어 있습니다. 하지만 당신은 무거운 모델이 얼마나 자주 실행될지를 제어할 수 있으며, 더 빠르게 해결되는 콜을 설계할 수 있습니다.

더 정교한 프롬프트(prompt)를 사용하여 통화 시간을 단축하면 결과당 비용이 낮아집니다. 이는 단순히 비용을 아끼는 문제가 아닙니다. 불필요한 턴(turn)에 예산을 낭비하지 않는 것에 관한 문제입니다. 하나의 작업을 깔끔하게 처리하도록 범위를 잘 설정한 에이전트가 단위 경제성(unit economics) 측면에서 모든 것을 다 하는 에이전트보다 거의 항상 우세할 것입니다.

AI 구축 비용이 예상치 못한 방식으로 급증할 수 있는 지점에 대해 더 자세히 알고 싶다면, 모델 의존성 포스트에서 구축 도중 스택의 핵심 요소가 사라질 때 어떤 일이 발생하는지 다루고 있습니다. 여기서 발생하는 비용은 단순히 달러(dollars)만의 문제가 아닙니다.

핵심 요약 (Key Takeaways)

  • 분당 0.07달러의 견적은 음성 엔진(voice engine)만을 기준으로 한 것입니다. 실제 운영되는 음성 에이전트(voice agent)의 총 비용은 분당 0.13달러에서 0.31달러 사이입니다.
  • 모든 통화에는 네 가지 비용 계층이 존재합니다: 음성 엔진(voice engine), LLM, 전화 시스템(telephony), 그리고 TTS(Text-to-Speech). 예산을 세울 때 이 네 가지를 모두 고려하여 모델링하십시오.
  • 통화 설계(call design)와 모델 라우팅(model routing)이 주요 조절 레버입니다. 더 짧고 긴밀한 통화가 결과물당 비용을 낮춰줍니다.

음성 AI 구축을 승인하기 직전이며 비용 모델에 대한 스트레스 테스트(stress-test)를 수행하지 않았다면, 저에게 AUDIT이라고 DM을 보내주세요. 확정하기 전에 반드시 물어봐야 할 다섯 가지 질문을 보내드리겠습니다.

원문은 theautomate.io에 게시되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0