AI 관측성(Observability) 개선: Mastra의 RAG Embedding Spans에 GenAI 시맨틱 지원을 추가한 방법

OpenTelemetry는 현대적인 시스템을 관측(observing)하기 위한 표준이 되었습니다.

하지만 AI 애플리케이션을 구축하기 시작하면, 전통적인 트레이스(traces)만으로는 충분하지 않습니다.

단순히 요청이 발생했다는 사실만 알고 싶은 것이 아닙니다.

당신은 다음 사항들을 알고 싶어 합니다:

어떤 모델이 출력을 생성했는가?
어떤 제공자(provider)가 사용되었는가?
얼마나 많은 토큰(tokens)이 소비되었는가?
어떤 임베딩(embedding) 모델이 문서를 처리했는가?
해당 작업의 비용은 얼마인가?

이러한 질문들은 검색 증강 생성 (RAG, Retrieval-Augmented Generation) 시스템을 구축할 때 더욱 중요해집니다.

최근 Mastra에 기여하는 과정에서, 저는 RAG 임베딩 작업과 관련된 관측성 격차(observability gap)를 발견했습니다.

이로 인해 저는 RAG_EMBEDDING 스팬(spans)에 대해 적절한 OpenTelemetry GenAI 시맨틱 매핑(semantic mappings)을 도입하는 풀 리퀘스트(pull request)를 제출하게 되었습니다.

문제점

Mastra는 이미 여러 AI 작업에 대해 풍부한 메타데이터(metadata)를 내보내고 있었습니다.

하지만 RAG 임베딩 스팬에는 표준화된 GenAI 시맨틱 속성(semantic attributes)이 누락되어 있었습니다.

그 결과, 관측 도구들은 임베딩 작업이 발생했다는 것은 확인할 수 있었지만, 다음과 같은 사항들을 쉽게 이해할 수 없었습니다:

모델 정보
제공자(provider) 정보
토큰 사용량
임베딩 특화 메타데이터

표준화된 시맨틱 컨벤션(semantic conventions)이 없다면, 대시보드와 트레이싱(tracing) 시스템은 귀중한 컨텍스트(context)를 잃게 됩니다.

이는 팀이 AI 워크로드에 대한 가시성을 확보해야 하는 프로덕션 환경에서 더 큰 문제가 됩니다.

RAG 임베딩 스팬의 이해

전형적인 RAG 파이프라인은 다음과 같습니다:

Documents
    ↓
Chunking
...

임베딩(embedding) 단계는 매우 중요합니다.

모든 문서 청크(chunk)는 벡터 표현(vector representation)으로 변환됩니다.

이 단계의 관측 데이터가 불완전하면, 성능 문제를 디버깅하는 것이 훨씬 더 어려워집니다.

OpenTelemetry 시맨틱 컨벤션이 중요한 이유

OpenTelemetry는 단순히 트레이스(traces)만을 정의하지 않습니다.

시맨틱 컨벤션(semantic conventions) 또한 정의합니다.

이러한 컨벤션은 텔레메트리(telemetry) 데이터를 위한 공통 언어를 생성합니다.

모든 프레임워크가 각자 맞춤형 필드 이름을 만들어내는 대신, 모두가 동일한 표준을 따르게 됩니다.

GenAI 워크로드의 경우, 이는 도구들이 다음과 같은 속성(attributes)을 자동으로 이해할 수 있음을 의미합니다:

gen_ai.system
gen_ai.request.model
gen_ai.response.model
...

표준화는 플랫폼과 관측성(observability) 벤더 간의 더 나은 상호 운용성(interoperability)을 가능하게 합니다.

해결 방법 (The Fix)

목표는 명확했습니다:

RAG 임베딩 텔레메트리(telemetry) 데이터를 OpenTelemetry의 GenAI 시맨틱 컨벤션(semantic conventions)에 매핑하는 것이었습니다.

구현 사항은 다음과 같습니다:

임베딩 모델 메타데이터(metadata) 내보내기
제공자(provider) 정보 내보내기
토큰 사용량 지표(metrics) 매핑
스팬(span) 속성을 OpenTelemetry 표준에 맞춤
기존 트레이싱(tracing) 인프라와의 호환성 유지

이를 통해 다운스트림(downstream) 관측성 시스템은 별도의 커스텀 통합 없이도 임베딩 작업을 이해할 수 있습니다.

이것이 AI 엔지니어에게 중요한 이유

AI 애플리케이션이 점점 더 복잡해짐에 따라, 관측성(observability)은 일급 요구사항(first-class requirement)이 되고 있습니다.

프로덕션 AI 시스템은 다음과 같은 질문에 대한 답이 필요합니다:

어떤 임베딩 모델이 지연 시간(latency) 급증을 유발하는가?
어떤 제공자(provider)가 가장 높은 비용을 발생시키는가?
인덱싱(indexing) 중에 얼마나 많은 토큰이 소비되는가?
어떤 검색(retrieval) 작업이 실패하고 있는가?

표준화된 텔레메트리(telemetry)가 없다면, 이러한 질문에 답하기 어려워집니다.

적절한 시맨틱 컨벤션(semantic conventions)이 있다면, 관측성 도구들이 이러한 인사이트를 자동으로 드러낼 수 있습니다.

오픈 소스로부터 얻은 교훈

제가 오픈 소스에서 즐거움을 느끼는 점 중 하나는, 작은 개선이 예상보다 더 큰 영향을 미치는 경우가 많다는 것입니다.

이것은 화려한 기능이 아니었습니다.

사용자들이 즉각적으로 알아차리지는 못할 것입니다.

하지만 유지 관리자(maintainers), 플랫폼 엔지니어, 그리고 AI 워크로드를 운영하는 팀들은 더 정확한 텔레메트리(telemetry)와 시스템에 대한 더 나은 가시성(visibility)을 통해 혜택을 입을 것입니다.

이러한 종류의 기여는 저에게 중요한 교훈을 주었습니다:

모든 가치 있는 기여가 새로운 기능(functionality)을 추가하는 것은 아닙니다.

때로는 가장 영향력 있는 개선이 기존 시스템을 더 이해하기 쉽고, 모니터링하기 쉬우며, 운영하기 쉽게 만드는 것입니다.

마치며

AI 인프라는 빠르게 진화하고 있습니다.

프레임워크 (Frameworks), 관측성 플랫폼 (observability platforms), 그리고 표준 (standards)이 모두 동시에 성숙해지고 있습니다.

이러한 생태계에 기여하는 것은 현대적인 AI 시스템이 내부적으로 어떻게 작동하는지 배울 수 있는 독특한 기회를 제공합니다.

저에게 이번 기여는 생소한 코드베이스 (codebases)를 읽는 것이 종종 흥미로운 문제들을 발견하는 길로 이어진다는 점을 다시 한번 상기시켜 주었습니다.

그리고 때때로, 그러한 문제 중 하나를 해결하는 것이 다른 모든 사람들을 위한 개발자 경험 (developer experience)을 개선하는 데 도움이 되기도 합니다.

만약 여러분이 AI 인프라 프로젝트에 기여하고 있다면, 관측성 (observability)을 간과하지 마세요.

최고의 AI 시스템은 단순히 지능적이기만 한 것이 아닙니다.

그것들은 관측 가능하기도 합니다.

GitHub: https://github.com/Akash504-ai
Open Source Contributor | Backend Engineering | AI Systems | OSS