당신의 AI 음성 에이전트는 블랙박스입니다. 이를 여는 방법을 소개합니다.

AI 에이전트가 텍스트를 입력할 때는 에이전트가 하는 모든 것을 볼 수 있습니다. LangChain은 모든 단계를 추적하고, LangSmith는 모든 실행을 재현하며, OpenTelemetry는 각 호출에 스팬(span)을 매답니다. 모델이 무엇을 보았는지, 무엇을 말했는지, 얼마나 걸렸는지, 그리고 비용이 얼마였는지 알 수 있습니다.

하지만 동일한 에이전트가 전화를 드는 순간, 불이 꺼집니다.

음성 에이전트의 모든 상호작용은 .mp3 파일 안에 존재합니다. 전사(transcript), 고객의 기분, 어색한 4초간의 침묵, 발신자의 말을 가로챈 순간, 대화가 엇나간 지점 — 이 모든 것이 그 안에 들어 있습니다. 하지만 기존의 관측성(observability) 스택에게 그 파일은 불투명합니다. LangSmith는 LLM에 입력한 토큰(token)은 보지만, 사람의 귀에 도달한 오디오는 보지 못합니다.

그래서 대부분의 팀은 할 수 있는 유일한 일을 합니다. 소수의 통화 내용을 수동으로 직접 듣고, 그 샘플이 대표성을 띠기를 바라는 것입니다. 이는 확장성이 없으며, 음성 에이전트를 어렵게 만드는 핵심 요소인 **행동 드리프트(behavior drift)**를 놓치게 만듭니다. 프롬프트(prompt)를 미세하게 조정하거나, 모델을 교체하거나, TTS 음성을 변경하면 에이전트가 미묘하게 느려지거나, 차가워지거나, 의도(intent)를 놓치기 시작합니다. 회귀(regression)가 오디오에 존재하기 때문에 유닛 테스트(unit test)로는 이를 잡아낼 수 없습니다.

이 시리즈는 그 간극을 메우는 것에 관한 것입니다. 첫 번째 포스트에서는 사고 모델(mental model)을 제시할 것이며, 다음 두 포스트에서는 까다로운 신호 추출(signal-extraction) 문제와 음성 신호를 CI에 연결하는 실습을 진행할 것입니다.

아티팩트(artifact)는 생각보다 더 풍부합니다

단일 통화 녹음에서 실제로 복구할 수 있는 정보는 다음과 같습니다:

전사 (Transcript) — 무엇이, 누구에 의해 말해졌는지, 타임스탬프와 함께 제공.
품질 (Quality) — 침묵 구간, 중단(interruption), 말하기 속도, 피치(pitch) 변화.
감성 (Sentiment) — 발신자의 기분, 그리고 기분이 변한 지점.
지연 시간 (Latency) — 각 단계(STT, LLM, TTS)가 응답하는 데 걸린 시간.
비용 (Cost) — 각 단계별로 할당된 통화 비용.
이벤트 (Events) — 감지된 의도(intent), 발신자의 통화 종료 여부, 컴플라이언스(compliance) 플래그.

단 하나의 파일 안에 그토록 많은 시그널 (signal)이 잠겨 있습니다. 각 기업의 팀들이 이를 매번 처음부터 다시 구축하는 이유는, 이 시그널을 분리해낸다는 것이 음성 인식 (speech recognition), 화자 분리 (speaker separation), 오디오 분석 (audio analysis), 감정 모델 (sentiment model), 그리고 가격표 (pricing sheet)를 하나로 결합하고 이 모든 것을 유지 관리해야 함을 의미하기 때문입니다.

오디오에서 의미를 추출하는 두 가지 방법

이를 다룰 수 있게 만드는 핵심 통찰은 다음과 같습니다. 오디오에 대해 던질 수 있는 질문에는 실제로 두 가지 서로 다른 종류가 있으며, 이들은 서로 다른 도구를 필요로 합니다.

1. 측정하기 (Measure it) — 고전적 신호 처리 (classical signal processing). 파형 (waveform)에 직접 실행되는 결정론적 수학 (deterministic math)입니다: 에너지 (energy), 피치 (pitch), 침묵의 길이 등. 비용이 저렴하고 정확하며, 학습 데이터 (training data)가 필요하지 않습니다. 물리적인 질문에 탁월합니다:

일시 정지(pause)가 얼마나 길었는가?
누군가 얼마나 빨리 말했는가?
이 목소리는 고음인가, 저음인가?

추측하는 대신 답을 측정합니다.

2. 추정하기 (Estimate it) — 학습된 모델 (learned models). Whisper와 같은 통계적 시스템이나 감정 분류기 (sentiment classifier)처럼 방대한 양의 데이터를 학습하여 답을 추정합니다. 이들은 물리 법칙보다는 의미를 생성하는 모든 것을 담당합니다:

어떤 단어들이 말해졌는가?
누가 말하고 있는가?
발신자가 화가 났는가?

여기서는 수기로 작성된 규칙 (hand-written rule)이 실제 음성에서 살아남을 수 없습니다. 모델이 필요합니다.

기술의 핵심은 어떤 질문이 어느 범주에 속하는지 아는 것입니다. 의미를 추정하려면 모델을 사용하고, 물리량을 측정하려면 신호 처리 (signal processing)를 사용하십시오. (다음 포스트에서는 모델을 사용할 수 없을 때 측정이 때때로 모델을 대신할 수 있다는 점을 보게 될 것입니다. 이는 놀라울 정도로 유용한 기술임이 드러납니다.)

하나의 리포트, 그 경계를 따라 나뉘다

저는 이것을 AudioTrace라는 작은 오픈 소스 라이브러리로 패키징했습니다. 녹음 파일을 전달하면, 정확히 그 '측정 대 추정'의 경계를 따라 나뉜 하나의 구조화되고 타입이 지정된 (typed) 리포트를 반환합니다. 음향 계층 (acoustic layer: 침묵, 속도, 피치)은 신호 처리이며, 의미 계층 (semantic layer: 전사(transcript), 감정, 의도)은 모델입니다.

pip install audiotrace

import audiotrace

report = audiotrace.analyze(
...

반환 값은 Pydantic CallReport이므로, 타입이 지정되어 있고 검증이 가능하며 직렬화(serialize)하기 매우 쉽습니다. 이를 OpenTelemetry 스팬(spans)으로 방출하거나, LangChain 및 LangSmith 트레이스(traces)에 연결하거나, CI 체크에서 어설션(assert)할 수 있습니다. 그리고 이것이 바로 이 시리즈가 나아갈 방향입니다.

모든 것을 결정지은 하나의 결정: 로컬 실행

통화 녹음은 데이터 중에서도 매우 민감한 정보에 속합니다. 따라서 AudioTrace는 전적으로 사용자의 기기에서 실행됩니다. 오디오 데이터는 외부로 유출되지 않으며, 오픈 모델(open models)은 한 번만 다운로드됩니다. 여기서 프라이버시(Privacy)는 비용을 지불하고 얻는 업그레이드 기능이 아니라, 기본값(default)이어야 합니다.

다음 단계

이중 계층 모델은 깔끔하게 들리지만, 흥미로운 부분은 "적절한" 도구를 사용할 수 없을 때 어떤 일이 발생하는가입니다. 다음 포스트에서는 구체적인 사례를 살펴보겠습니다. 모두가 찾는 폐쇄형 모델(gated model) 없이 누가 말하고 있는지(who is speaking) 라벨링하는 방법, 그리고 일반적인 사례에서는 수십 줄의 피치(pitch) 측정 코드가 왜 그 모델보다 더 나은지에 대해 다루겠습니다.

지금 바로 확인해보고 싶다면:

pip install audiotrace

⭐ 저장소는 github.com/dimastatz/audiotrace에 있습니다.
이슈(Issues)와 PR(Pull Requests)을 환영합니다. 아직 초기 단계이며, 프로바이더(provider) 통합은 가장 도움이 되는 기여 유형입니다.

계속해서 만들어 나가세요!