Rasa 팟캐스트: 대화 디자인의 진화

이 Rasa 팟캐스트 영상(_The Dialogue Architects_라는 프로그램명)에서 진행자와 게스트인 Rebecca Evanhoe (《Conversations with Things》의 공동 저자이자 현재 Slang AI의 제품 매니저 및 대화 디자인 책임자)는 대규모 언어 모델(LLM) 시대의 대화 디자인의 진화, 외식 산업에서의 음성 AI 도입 세부 사항, 그리고 평가 및 최적화 방법을 주제로 매우 심도 있는 논의를 나누었습니다.

다음은 영상 내용의 매우 상세하고 완전한 요약입니다:

1. 게스트의 배경 및 근황

Slang AI의 제품 및 역할: Rebecca는 Slang AI에서 2년 반 동안 근무했습니다 [00:54]. 이 회사는 주로 레스토랑 전화를 위한 음성 AI를 개발하며, 예약, 예약 변경/취소, 그리고 레스토랑 관련 질문에 답변하는 데 집중하고 있습니다 [01:00]. 그녀는 처음에 팀의 첫 번째 대화 디자이너였으며, 지난 몇 년 동안 점진적으로 제품 매니저(PM)로 승진하여 전략적인 측면에 더 치중하면서도 동시에 디자인 책임자의 역할을 계속 수행하고 있습니다 [01:20].
저서에 대한 새로운 생각: 그녀의 저서 《Conversations with Things》는 대규모 모델(Large Model)이 폭발하기 전에 쓰였습니다. 만약 지금 개정한다면
어떤 부분에 대규모 모델(Large Model)을 사용하고, 어떤 부분에 규칙(Rule)을 사용할지 어떻게 결정할까요? Slang AI의 시스템은 완전한 결정론적(Deterministic/규칙 기반) 방식에서 혼합 시스템(Hybrid System)을 거쳐, 현재는 완전 생성형(Fully Generative) 방식으로 전환되는 단계를 경험했습니다 [12:55, 16:15].
LLM을 가장 먼저 도입한 부분 (메뉴 및 영업시간 조회): Rebecca는 메뉴 관련 질문은 전통적인 시스템으로는 거의 완벽하게 처리하는 것이 불가능하다고 지적했습니다. 사용자의 질문 방식이 매우 다양할 뿐만 아니라, 식당마다 메뉴가 매일 바뀌기 때문입니다 [14:03]。영업시간은 규칙으로 처리할 수 있지만, LLM으로 감싸면(Wrap) 답변이 문맥에 더 적합하고 자연스러워집니다 [14:25]。그들은 매우 가벼운 소형 모델(Small Model)과 극도로 엄격한 프롬프트(Prompt)(주어진 시간표만 보고 답변하도록 제한)를 결합하여 환각(Hallucination) 비율을 0으로 낮추는 데 성공했습니다 [14:47].
규칙(결정론적 방식)을 유지하는 부분: 구체적인 비즈니스 로직 및 하위 API 호출(예: OpenTable 예약 시스템 연동)과 관련된 연속적인 검증 단계입니다 [17:32, 18:35]。예를 들어 사용자가 금요일에 방문하겠다고 말하면, 시스템은 첫 단계로 Webhook을 통해 그날 영업을 하는지 확인해야 합니다. 만약 그날 문을 열지 않는다면
전통적인 녹음 전사 텍스트 검토 (Transcript Review): 엔지니어들은 전사 텍스트를 읽는 것이 효율이 낮고 확장성이 없다고 생각하기 마련이지만, Rebecca는 이것이 가장 풍부한 데이터 소스라고 주장합니다 [21:47].
대규모 언어 모델을 평가자로 활용 (LLM-as-a-judge): 이들은 클라우드 코드 (Cloud Code)를 사용하여 수천 개의 전사 텍스트를 대규모 언어 모델 (LLM)에 직접 전달합니다. 모델이 표준에 따라 점수를 매기고 태그를 달도록(특정 감정이나 문제를 포함하는 대화 선별) 하여, Rebecca는 그 정확도가 참고용으로 충분할 만큼 높다는 것을 발견했습니다 [22:33].
Brain Trust 평가 워크플로우: 현재 이들은 Brain Trust라는 도구(또는 이와 유사한 다른 도구들)를 사용합니다 [23:25]:
- 생성된 콘텐츠가 포함된 대화 세션 (Session)을 도구에 연결합니다.
- 3명의 전문 인간 평가자가 온라인 인터페이스에서 대화를 수동으로 라벨링하며 세 가지 태그를 지정합니다: Pass/Fail (통과 여부), Accuracy (정확도), Quality (품질/식당다운 열정과 환대하는 어조를 갖추었는지 여부). 이를 통해 골든 데이터셋 (Ground Truth)을 구축합니다 [24:05].
- 도구 내에서 평가를 전문으로 하는 별도의 대규모 언어 모델을 훈련시켜 이 인간 평가자들의 채점 로직을 학습시킵니다 [24:23].
- 이후 모든 자동화 테스트와 일괄 채점은 이렇게 훈련된 "평가용 대규모 언어 모델"이 수행하게 하여 인력을 크게 절감합니다 [24:38].
CSAT (고객 만족도) 및 감정 분석 (Sentiment)에 대한 견해:
Rebecca는 솔직하게 자신이 CSAT 점수는 거의 무시한다고 밝혔으며, 이것이 별로 가치가 없다고 생각합니다 [28:50]. 그녀는 대화가 좋은지 나쁜지는 대화에서 무슨 일이 일어났는지를 직접 보면 알 수 있다고 믿습니다. 만약 예약에 실패했는데 사용자에게 같은 말을 여러 번 반복하게 했다면, 사용자의 시간을 뺏어 설문조사를 하지 않더라도 그 경험이 엉망이라는 것을 알 수 있습니다 [29:13].
그녀는 예전에 감정 분석 (Sentiment Analysis) 도구들이 매우 무용하다고 생각했습니다 (대부분 "중립" 결과만 내놓기 때문) [29:35], 하지만 지금은 생각이 바뀌었습니다. 다만 식당 예약은 보통 (항공사 예약 변경과 달리) 위험도가 높거나 불안감이 높은 상황을 수반하지 않기에, 사용자가 자리를 예약하지 못하면 보통 "그럼 너무 늦네요, 됐어요, 안녕히 계세요"라고 말할 뿐 감정의 변화가 크지 않습니다 [30:10, 30:44]. 따라서 Slang AI의 **북극성 지표 (North Star Metric)는 여전히 작업 완료율 (Task Completion Rate)**입니다 [31:09].

5. 음성 AI (Voice) 특유의 복잡성과 페인 포인트 (Pain Points)

텍스트 채팅 (Chat)과 비교했을 때, 음성 AI의 난이도는 몇 배로 뜁니다:

환경 소음으로 인한 오인식 (ASR 오류): 자동 음성 인식 (ASR) 기술이 지난 몇 년간 비약적으로 발전했지만, 식당 고객의 전화 상황은 매우 특수합니다. 고객들은 종종 도로 위, 시끄러운 공공장소, 또는 운전 중에 전화를 걸기 때문에 배경 소음이 매우 큽니다 [33:34]. 일단 ASR이 말을 잘못 알아듣게 되면

또한 Rebecca는 현재 음성 사용자들의 발화가 점점 더 자연스러워지고 길어지고 있다는 점을 관찰했습니다 oxed{44:12}. 설령 대화 중간에 상대가 로봇임을 깨닫고 "아, 로봇이네"라고 한마디 투덜거린다고 해도, 그 이후에도 자연스럽게 대화를 이어갑니다 oxed{44:20}. 그녀가 본 가장 놀라운 전사(Transcription) 사례는, 한 사용자가 예약 완료 후 전화기에 대고 세 문장에 달하는 긴 말을 했다는 것입니다: "감사합니다, 정말 큰 도움이 되었어요. 처음에는 자동화 시스템이라서 안 될 줄 알았는데, 정말로 해결해 주실 줄은 몰랐네요. 경험이 너무 좋았습니다." 이처럼 AI를 사람처럼 대하며 속마음을 털어놓고 소통하는 현상은 이전에는 상상할 수 없었던 일이었습니다 oxed{44:32}. 현재의 LLM(대규모 언어 모델)은 매우 우아하게 긴 문장 속에서 "제가 좀 늦을 것 같은데, 제가 예약한 건 특별한 좌석이니까 꼭 유지해 주세요, 30분 뒤에 도착합니다"와 같은 일련의 복합 의도(Compound Intent)를 자동으로 분해하고 우선순위를 정할 수 있습니다 oxed{45:36}.

8. 동료들에게 전하는 안심의 메시지

영상 마지막에 Rebecca는 해고나 직무 전환의 불안감에 빠진 모든 대화 디자이너(CxD)들에게 자신감을 북돋아 주는 메시지를 전했습니다:

"걱정하지 마세요, 우리의 가치는 여전히 대체 불가능합니다. 만약 어떤 기업들이 지금 맹목적으로 유행을 따라 대규모 언어 모델(LLM)만 있으면 대화 디자이너가 필요 없다고 생각한다면—괜찮습니다. 그들에게 9개월, 혹은 18개월의 시간을 주세요. 그들의 제품이 실제 운영 환경(Production)에서 사용자들에게 호되게 깨지고 경험(Experience)을 망쳐보게 하세요. 그때가 되면 그들은 왜 우리가 필요한지를 깨닫게 될 것이고, 그 회사들은 모두 여러분의 미래 고객이 될 것입니다." oxed{47:02, 47:32]

Rasa 팟캐스트: 대화 디자인의 진화

요약

핵심 포인트

1. 게스트의 배경 및 근황

5. 음성 AI (Voice) 특유의 복잡성과 페인 포인트 (Pain Points)

8. 동료들에게 전하는 안심의 메시지

댓글