Spanlens
요약
Spanlens는 다양한 LLM 호출을 모니터링하고 분석할 수 있는 오픈 소스 관측성 플랫폼입니다. 비용 추적, 에이전트 트레이싱, 이상 탐지 및 보안 스캐닝 기능을 통해 LLM 애플리케이션의 운영 효율성을 극대화합니다.
핵심 포인트
- 단 한 줄의 코드로 OpenAI, Anthropic 등 다양한 모델 통합 가능
- 비용, 토큰, 지연 시간 및 에이전트 워크플로우 시각화 제공
- PII 및 프롬프트 인젝션 방지를 위한 보안 스캐닝 기능
- A/B 테스트 및 LLM-as-judge 기반의 정교한 프롬프트 평가 지원
Spanlens는 개발자가 OpenAI, Anthropic, Gemini, Mistral, OpenRouter, Azure OpenAI 또는 로컬 Ollama 모델에 대해 애플리케이션이 수행하는 모든 호출을 모니터링할 수 있게 해주는 오픈 소스 (MIT) LLM 관측성 (observability) 플랫폼입니다. 통합은 단 한 줄이면 충분합니다. 클라이언트의 baseURL을 Spanlens 프록시로 교체하거나, "npx @spanlens/cli init"을 실행하면 마법사가 코드를 자동으로 재작성합니다. 그 순간부터 모든 요청은 모델, 토큰 수, 지연 시간 (latency), 비용, 그리고 전체 프롬프트 (prompt) 및 응답 본문과 함께 기록되며, 스트리밍 응답 (streaming responses)은 자동으로 재구성됩니다.
대시보드는 이러한 로우 로그 (raw log)를 운영 인사이트로 전환합니다. 비용 추적 (Cost tracking)은 요청별, 모델별, 최종 사용자별로 지출을 세분화하며, 프롬프트 캐시 (prompt-cache) 토큰을 별도로 분석하여 표면적인 가격이 아닌 실제 캐시 절감액을 확인할 수 있게 합니다. 에이전트 트레이싱 (Agent tracing)은 다단계 워크플로우를 간트 차트 (Gantt waterfalls) 및 노드-엣지 그래프 (node-and-edge graphs)로 시각화하여, 팬아웃 (fan-out) 상황에서 가장 느린 의존성 체인을 찾을 수 있도록 임계 경로 (critical path)를 강조합니다. 이상 탐지 (Anomaly detection) 기능은 이동 평균 7일 기준선 (rolling 7-day baseline) 대비 지연 시간, 비용 또는 에러율의 3-시그마 (3-sigma) 편차를 플래그로 표시하며 근본 원인에 대한 힌트를 제공합니다. 예산, 에러율 및 p95 지연 시간에 대한 알림은 이메일, Slack 또는 Discord로 전달됩니다.
Spanlens는 수동적인 로깅 그 이상을 수행합니다. 정규 표현식 (regex) 기반의 PII (개인정보) 및 프롬프트 인젝션 (prompt-injection) 스캐너가 요청 및 응답 본문을 검사하며 프록시에서 인젝션을 차단할 수 있습니다. 절감 엔진 (savings engine)은 더 저렴한 모델의 프로필과 일치하는 호출(예: 분류 작업처럼 보이는 gpt-4o 호출)을 찾아내고 전환 시 예상되는 월간 절감액을 추정합니다. A/B 실험을 포함한 프롬프트 버전 관리 (Prompt versioning)는 통계적 유의성을 위해 Welch의 t-검정 (Welch's t-test)을 사용하여 지연 시간, 비용 및 에러율에 따른 버전을 비교하며, LLM-as-judge 평가 프레임워크 (OpenAI, Anthropic 또는 Gemini를 판사로 사용)는 루브릭 앵커 (rubric anchors)를 기준으로 출력을 점수화하고, 인간과의 일치도는 Pearson r 또는 Cohen's kappa로 측정합니다. 재사용 가능한 데이터셋은 오프라인 평가 (offline evals) 및 회귀 테스트 (regression checks)를 지원합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기