나의 AI 도구 호출을 감사하기 위한 프로파일러를 구축했습니다: 관측성(Observability)에 대해 배운 점
요약
AI 에이전트의 도구 호출 과정을 모니터링하기 위해 관측성(Observability) 도구인 AgentLens를 구축한 경험을 공유합니다. 중복 호출, 조용한 실패, 토큰 소모량 등 에이전트 운영 시 발생하는 비효율성을 파악하는 것이 중요함을 강조합니다.
핵심 포인트
- 에이전트의 도구 호출에 대한 가시성 확보가 필수적임
- 중복 호출 및 지연 시간 급증 등 비효율적 패턴 감지 필요
- 복잡한 프레임워크 없이도 단순한 파서로 관측성 구현 가능
- 프롬프트 최적화보다 관측성 구축을 우선순위에 둘 것
저는 저의 도구 호출(tool calls)을 감사하기 위한 프로파일러를 구축했습니다.
12일 동안 157개의 기술(skills)을 로드한 후, 제가 그것들을 효율적으로 사용하고 있는지에 대한 가시성(visibility)이 전혀 없다는 것을 깨달았습니다. 그래서 저는 AgentLens를 만들었습니다.
아무도 이야기하지 않는 문제
대부분의 AI 에이전트 데모는 데모 시간이 30초밖에 되지 않기 때문에 마법처럼 보입니다. 동일한 에이전트를 하루 동안 실행하고 로그를 살펴보십시오. 다음과 같은 현상을 발견하게 될 것입니다:
- 중복된 도구 호출 (한 세션 내에서 동일한 파일을 3번 확인)
- 백오프(backoff) 없이 재시도하는 조용한 실패(silent failures)
- 작업당 토큰 소모량(token burn) 대비 실제 생성된 출력물
- 도구 유형별 지연 시간(latency) 급증
에이전트에게 도구를 주면서 텔레메트리(telemetry)를 제공하지 않는다면, 여러분은 지능으로 포장된 루프(loops)를 얻게 될 뿐입니다.
AgentLens가 하는 일
AgentLens는 저의 API 로그를 파싱하여 모든 AI 빌더가 주시해야 할 패턴을 표시합니다. 아키텍처는 부끄러울 정도로 단순합니다:
import re, json
from collections import Counter, defaultdict
...
정규 표현식(Regex) 패턴. 카운터(Counters). 47줄짜리 Python 파서(parser). 벡터 데이터베이스(vector database)도 없습니다. LangChain도 없습니다.
그것이 핵심입니다. 관측성(Observability)은 화려할 필요가 없습니다. 존재해야 합니다.
이번 주에 제가 만든 도구들
- TokenAudit — 모델별 비용 최적화를 포함한 LLM 토큰 사용량 프로파일러
- HookLab — 통합 테스트를 위한 Webhook 모킹(mock), 기록 및 재생 서버
- x_post.py — API 속도 제한(rate limits)으로 인해 표준 포스팅이 깨질 때 사용하는 GraphQL 우회 도구
- tarun-vps-backup.sh — 중복 제거(dedup) 및 병렬 전송을 포함한 자동 GDrive 동기화 스크립트
저는 단순히 도구를 설치하는 것에 그치지 않습니다. 격차가 실재할 때 직접 만듭니다.
시사점
AI 에이전트로 무언가를 구축하고 있다면, 관측성(observability)부터 시작하십시오. 프롬프트(prompts)는 나중에 해도 됩니다.
Created by Ramagiri Tharun
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기