우리는 AI 접수원을 만들었습니다. 어려운 점은 사람처럼 들리게 만드는 것이 아니었습니다.

요약

음성 AI 상담원 'Ava'를 개발하며 겪은 실질적인 기술적 도전 과제를 다룹니다. 단순히 자연스러운 목소리를 구현하는 것을 넘어, 대화의 무질서함, 침묵 처리, 그리고 잘못된 정보를 확신 있게 말하는 '환각' 문제를 해결하는 과정이 핵심입니다.

핵심 포인트

자연스러운 목소리는 이제 기본 사양이며, 실제 차이는 듣기와 이해 능력에서 발생함
대화 중 발생하는 침묵과 말 끊김 등 비정형적인 상호작용 처리가 매우 중요함
AI가 잘못된 정보를 확신 있게 말하는 '확신에 찬 실수'가 가장 위험한 요소임
시스템의 지능보다 모르는 것을 인정하고 확인하는 '절제(restraint)' 설계가 필수적임

화요일 저녁 8시 40분입니다. 치과 문은 닫혔고, 안내 데스크는 불이 꺼져 있는데 전화가 울립니다. 새로운 환자가 스케일링 예약을 하고 싶어 합니다. 보통 이런 전화는 음성 사서함에서 끊기고, 환자는 목록에 있는 다음 치과로 전화를 겁니다.

우리는 만약 무언가가 대신 전화를 받는다면 어떤 일이 일어날지 알고 싶었습니다. 그래서 우리는 전화에 응답하고, 실제 대화를 나누며, 예약을 잡는 AI를 만들었습니다. 우리는 그녀의 이름을 Ava라고 지었습니다.

시작할 때, 우리는 그녀를 사람처럼 들리게 만드는 것이 도전 과제가 될 것이라고 가정했습니다. 하지만 그것은 쉬운 부분이라는 것이 밝혀졌습니다. 진짜 어려운 부분은 아무도 데모 영상에 넣지 않는 것들이었습니다.

사람처럼 들리는 것은 이제 기본적으로 해결된 문제입니다

몇 년 전에는 목소리가 정체를 드러내는 요소였습니다. 단조롭고 로봇 같아서 명백히 기계라는 것을 알 수 있었죠. 이제 그런 시대는 지났습니다. 우리가 Ava에게 부여한 목소리는 따뜻하고 자연스러워서 대부분의 사람들은 처음 몇 초 동안 그것을 AI라고 눈치채지 못합니다.

따라서 만약 당신이 이 도구들을 얼마나 사람처럼 _들리는지_로 판단하고 있다면, 당신은 잘못된 것을 판단하고 있는 것입니다. 목소리는 기본 조건(table stakes)일 뿐입니다. 실제로 무너지는 것은 그 밑에 있는 모든 것입니다.

첫 번째로 무너진 것은 말하기가 아니라 듣기였습니다

우리의 초기 버전은 소리는 훌륭했지만, 실제 사람이 말을 하면 거의 아무것도 이해하지 못했습니다.

실제 대화는 무질서합니다. 사람들은 말을 흐리기도 하고, 다시 시작하기도 하며, 에이전트의 말을 끊기도 합니다. 그리고 우리의 경우, 시스템이 계속 잘못 듣는 억양으로 말하기도 했습니다. 시스템은 자신 있게 문장의 절반만 낚아챈 뒤, 상대방이 말을 마쳤다고 판단하고 잘못된 답변을 내놓았습니다. 그러면 상담원 연결을 위해 0번을 마구 누르고 싶게 만드는 공포의 "죄송합니다, 다시 말씀해 주시겠어요?" 루프가 시작됩니다.

이를 해결한다는 것은 듣는 방식을 바꾸는 것을 의미했습니다. 다른 음성 엔진(speech engine)을 사용하고, 사용자가 말을 마쳤다고 가정하기 전에 조금 더 오래 기다리도록 가르치는 것이었습니다. 화려하지는 않지만, 이것이 데모와 실제 고객이 사용할 수 있는 제품 사이의 차이입니다.

그다음은 침묵 문제였습니다

우리가 배운 이상한 점이 하나 있습니다. 전화 통화에서 침묵은 "고장 남"으로 인식된다는 것입니다.

Ava가 생각하기 위해 단 1초라도 멈추면, 마치 전화가 끊긴 것처럼 느껴졌습니다. 텍스트 채팅에서는 짧은 지연이 아무도 신경 쓰지 않지만, 통화 중에는 뇌가 즉시 무언가 잘못되었다고 가정합니다. 우리는 이를 고려하여 설계해야 했습니다. 그녀를 빠르게 유지하고, 침묵하는 대신 "그 정보를 찾는 동안 잠시만 기다려 주세요"와 같은 자연스러운 말을 하도록 만들었습니다. 작은 디테일이지만, 통화가 살아있는 것처럼 느껴지는지 여부에 있어 엄청난 차이를 만듭니다.

진짜 교훈: 위험한 것은 로봇 목소리가 아닙니다. 확신에 찬 실수입니다.

이 부분은 모든 사업주가 전화 라인에 AI를 도입하기 전에 반드시 이해해야 할 내용입니다.

전화 상담원에게 무서운 실패는 목소리가 딱딱하게 들리는 것이 아닙니다. 잘못된 일을 하면서도 목소리는 매우 훌륭하게 들리는 것입니다. 즉, 잘못된 날짜를 예약하거나, 존재하지 않는 할인을 약속하거나, 틀린 답을 확신에 차서 말하는 것입니다. 허세를 부리는 봇은 봇이 없는 것보다 더 나쁩니다. 왜냐하면 당신이 바로잡을 수 없는 상황에서, 당신의 이름으로 고객에게 피해를 입히기 때문입니다.

따라서 우리가 했던 가장 중요한 작업은 Ava를 더 똑똑하게 만드는 것이 아니었습니다. 그것은 그녀에게 절제 (restraint) 를 가르치는 것이었습니다:

그녀는 예약 내용을 다시 확인하고, 무엇인가를 예약하기 전에 명확한 "네"라는 대답을 기다립니다.
실제로 무언가를 모를 때는, 추측하지 않고 사람이 후속 조치를 취할 것이라고 말합니다.
통화 내용이 그녀의 범위를 벗어나거나 누군가 상담원을 원하는 즉시, 그녀는 전화를 넘깁니다.

이 중 어느 것도 화려한 데모(demo)에서는 나타나지 않습니다. 이 모든 것이 바로 이 시스템을 실제로 계속 실행해 둘 수 있을 만큼 신뢰할 수 있게 만드는 요소입니다.

"언제 행동하지 말아야 할지 아는 것"이 핵심입니다

이것을 만들면서 얻은 단 하나의 아이디어가 있다면, AI 에이전트의 가치는 스스로 얼마나 많은 일을 할 수 있느냐가 아니라는 점입니다. 그것은 자신이 해야 할 일의 경계를 얼마나 확실하게 알고, 거기서 멈추느냐에 달려 있습니다.

그것은 전화 접수원에게도 해당되는 사실이며, 고객, 자산, 또는 일정 근처에 두게 될 그 어떤 AI에게도 마찬가지로 적용됩니다. 속도와 듣기 좋은 목소리는 일단 문을 열고 들어오게 만들 수는 있습니다. 하지만 그 한계를 아는 것이야말로 당신이 AI를 신뢰할 수 있게 만드는 핵심입니다. 우리는 어떻게든 대충 둘러대며 넘어가다가 월요일에나 발견하게 될 엉망진창인 예약을 만들어내는 시스템보다는, 차라리

AI 자동 생성 콘텐츠

원문 바로가기