시승 예약용 AI 음성 에이전트 설계하기

요약

자동차 시승 예약을 위한 AI 음성 에이전트 설계 방법론을 다룹니다. 단순한 채팅을 넘어 워크플로우 설계와 도구 호출(Tool Call)을 통해 실제 예약을 수행하는 아키텍처 패턴을 제안합니다.

핵심 포인트

LLM은 대화 해석과 도구 호출 결정에 집중하고, 데이터는 결정론적 시스템에서 가져와야 함
대화 상태(Dialogue State) 관리를 통해 사용자 의도와 정보를 지속적으로 유지해야 함
긴 프롬프트 대신 명시적이고 작은 단위의 도구 세트를 구성하는 것이 안전함
복잡한 금융 상담이나 협상은 상담원에게 연결하는 에스컬레이션 기능이 필수적임

자동차 대리점에 걸려오는 전화는 겉으로 보기에는 단순해 보입니다. 누군가 차량에 대해 문의하거나, 시승을 예약하거나, 예약을 변경하거나, 서비스 데스크에 연결하려는 상황이죠.

내부적으로 살펴보면, 이는 왜 음성 에이전트(voice agents)에게 단순히 멋진 프롬프트(prompt)가 아닌 워크플로우 설계(workflow design)가 필요한지를 보여주는 좋은 사례입니다. 발신자는 동일한 대화 속에서 특정 차량, 선호하는 시간, 대차(trade-in), 금융 관련 질문, 그리고 위치 제약 사항을 언급할 수 있습니다. 만약 시스템이 단순히 "채팅"만 한다면 요약본을 만들 뿐이겠지만, 에이전트(agent)로 설계된다면 실제로 예약을 진행할 수 있습니다.

다음은 우리가 대리점 스타일의 시승 전화에 사용하는 아키텍처 패턴입니다.

핵심 통화 흐름 (The core call flow)

유용한 시승 에이전트는 몇 가지 작업을 순서대로 처리해야 합니다:

발신자의 의도(intent) 파악.
관심 있는 차량 또는 카테고리 캡처.
다음 단계가 영업(sales), 서비스(service), 금융(finance)인지 또는 상담원 연결(human escalation)인지 확인.
대리점 캘린더에서 예약 가능한 시간대 제안.
도구 호출(tool call)을 통해 예약 생성 또는 업데이트.
영업 팀에 깔끔한 인수인계(handoff) 노트 전송.

중요한 점은 LLM이 신뢰할 수 있는 정보의 원천(source of truth)이 되어서는 안 된다는 것입니다. LLM은 대화를 해석하고 어떤 도구를 호출할지 결정해야 합니다. 재고 가용성, 직원 캘린더, 리드 소유권(lead ownership), 예약 기록 등은 결정론적 시스템(deterministic systems)으로부터 가져와야 합니다.

실질적인 스택 (A practical stack)

전형적인 구현 방식은 다음과 같습니다:

Phone call
  -> telephony provider
  -> streaming speech-to-text
...

이러한 "대화 상태(dialogue state)" 레이어가 중요합니다. 이것이 없다면 매 턴(turn)마다 새로운 추측을 해야 합니다. 하지만 이것이 있다면, 에이전트는 발신자가 중고 SUV에 대해 물었고, 토요일을 선호하며, 금융 관련하여 영업사원의 후속 연락을 원한다는 사실을 기억할 수 있습니다.

단순화된 상태 객체(state object)는 다음과 같을 수 있습니다:

{
  "intent": "book_test_drive",
  "vehicle_interest": {
...

LLM은 이 객체를 채우고 업데이트하는 데 도움을 줄 수 있지만, 예약은 반드시 검증(validation) 후에 이루어져야 합니다.

긴 프롬프트보다 도구 호출이 낫다 (Tool calls beat long prompts)

이러한 종류의 에이전트에게 가장 안전한 설계는 명시적인 도구 세트를 작게 구성하는 것입니다:

search_stock(query)
check_test_drive_slots(location, vehicle_id)
create_test_drive_booking(slot, caller, vehicle_id)
send_confirmation(contact, booking_id)
handoff_to_sales(reason, summary)

이렇게 하면 모델이 존재하지 않는 재고를 만들어내거나 존재하지 않는 시간을 약속하는 것을 방지할 수 있습니다. 모델의 역할은 다음으로 유용한 질문을 던지고, 충분한 정보가 확보되었을 때 적절한 도구 (tool)를 호출하는 것입니다.

에스컬레이션 (Escalation)은 실패가 아니라 기능입니다

딜러십 음성 에이전트가 모든 것에 답하려고 해서는 안 됩니다. 금융, 불만 사항, 특이한 차량 이력 질문, 그리고 협상은 종종 사람이 처리하는 것이 더 낫습니다.

에이전트는 일상적인 워크플로 (workflow)에 대해서는 확신을 가져야 하지만, 그 외의 모든 것에 대해서는 보수적이어야 합니다:

재고 데이터가 불분명하면, 에스컬레이션 (handoff) 하세요.
통화자가 좌절감을 느끼면, 에스컬레이션 (handoff) 하세요.
통화자가 구속력 있는 금융 답변을 요구하면, 에스컬레이션 (handoff) 하세요.
예약 기록이 실패하면, 명확하게 설명하고 콜백 (callback) 작업을 생성하세요.

이것이 바로 AI 자동화의 최악의 버전, 즉 시스템이 도움을 줄 수 있는 척하는 동안 통화자가 정중한 루프 (loop)에 갇혀 있는 상황을 피하는 방법입니다.

중요한 운영 세부 사항

화려하지는 않지만, 보통 시스템을 신뢰할 수 있게 만드는 것은 다음과 같은 요소들입니다:

멱등성 (Idempotent) 예약 기록: 도구 호출이 반복되더라도 중복된 예약이 생성되지 않도록 합니다.
구조화된 통화 요약 (Structured call summaries): 영업 직원이 통화자의 의도를 빠르게 파악할 수 있도록 합니다.
동의 기반의 녹음 및 전사 (Consent-aware recording and transcription): 시장 및 비즈니스 정책에 따라 수행합니다.
도구 오류 처리 (Tool error handling): 모호한 사과 대신 폴백 (fallback) 경로를 제공합니다.
인간 연결 규칙 (Human transfer rules): 프롬프트 (prompt) 속에 묻혀 있는 것이 아니라 딜러십에서 확인할 수 있어야 합니다.

핵심 요약

시승 음성 에이전트는 단순히 "전화기 위의 LLM"이 아닙니다. 그것은 딜러십 시스템을 감싸고 있는 대화형 인터페이스 (conversational interface)입니다.

에이전트는 자연스러운 언어를 이해해야 하지만, 워크플로 (workflow)는 여전히 지루할 정도로 명시적이어야 합니다: 차량을 확인하고, 캘린더를 체크하고, 예약을 생성하고, 통화자에게 확인한 뒤, 위험 요소가 있는 것은 에스컬레이션 (handoff) 하는 것입니다.

그러한 균형이 바로 데모를 프로덕션 시스템 (production system)으로 탈바꿈시키는 핵심입니다.

VoiceFleet 전체 기사: 자동차 대리점 시승 예약용 AI 음성 에이전트

AI 자동 생성 콘텐츠

원문 바로가기