모든 음성 파이프라인 Span에 태깅하는 3가지 OTel Span Attributes
요약
음성 파이프라인의 지연 시간을 효과적으로 분석하기 위해 OpenTelemetry(OTel) Span에 적용해야 할 3가지 필수 속성을 제안합니다. ASR, LLM, TTS, Client 단계별로 일관된 태깅을 통해 효율적인 모니터링과 쿼리를 가능하게 합니다.
핵심 포인트
- 음성 파이프라인의 4단계(ASR, LLM, TTS, Client) 구분 필요
- audio.stage.Enum을 통한 단계별 p95 지연 시간 쿼리 최적화
- audio.session_id를 활용한 전체 대화 세션 추적
- 일관된 Span Attributes를 통한 관측성(Observability) 확보
음성 파이프라인(Voice pipelines)은 별도의 지연 시간(latency) 분석이 필요한 4가지 단계로 구성됩니다: ASR (음성 인식, speech to text), LLM (응답 프롬프트), TTS (음성 합성, text to speech), 그리고 클라이언트(client, 수신 측의 지터(jitter)). 이 4가지 단계 전체에 OTel을 연결했을 때, 일관된 속성(attributes)이 없는 Span들은 쿼리(query) 용도로 사용하기에 무용지물이었습니다. 결국 모든 Span에 포함되어 제 역할을 다하고 있는 3가지 속성이 있습니다.
audio.stage.Enum: asr, llm, tts, client. 가장 많이 쿼리되는 단일 속성입니다. 단계별 p95 지연 시간을 확인하기 위한 Grafana 쿼리는 하나의 필터로 작동합니다. 이 속성이 없다면, 여러분은 가공되지 않은 트레이스(raw traces)를 일일이 스크롤해야 할 것입니다.
audio.session_id: 전체 대화 세션입니다. 이를 통해
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기