Spanlens

Spanlens는 개발자가 OpenAI, Anthropic, Gemini, Mistral, OpenRouter, Azure OpenAI 또는 로컬 Ollama 모델에 대해 애플리케이션이 수행하는 모든 호출을 모니터링할 수 있게 해주는 오픈 소스 (MIT) LLM 관측성 (observability) 플랫폼입니다. 통합은 단 한 줄이면 충분합니다. 클라이언트의 baseURL을 Spanlens 프록시로 교체하거나, "npx @spanlens/cli init"을 실행하면 마법사가 코드를 자동으로 재작성합니다. 그 순간부터 모든 요청은 모델, 토큰 수, 지연 시간 (latency), 비용, 그리고 전체 프롬프트 (prompt) 및 응답 본문과 함께 기록되며, 스트리밍 응답 (streaming responses)은 자동으로 재구성됩니다.

대시보드는 이러한 로우 로그 (raw log)를 운영 인사이트로 전환합니다. 비용 추적 (Cost tracking)은 요청별, 모델별, 최종 사용자별로 지출을 세분화하며, 프롬프트 캐시 (prompt-cache) 토큰을 별도로 분석하여 표면적인 가격이 아닌 실제 캐시 절감액을 확인할 수 있게 합니다. 에이전트 트레이싱 (Agent tracing)은 다단계 워크플로우를 간트 차트 (Gantt waterfalls) 및 노드-엣지 그래프 (node-and-edge graphs)로 시각화하여, 팬아웃 (fan-out) 상황에서 가장 느린 의존성 체인을 찾을 수 있도록 임계 경로 (critical path)를 강조합니다. 이상 탐지 (Anomaly detection) 기능은 이동 평균 7일 기준선 (rolling 7-day baseline) 대비 지연 시간, 비용 또는 에러율의 3-시그마 (3-sigma) 편차를 플래그로 표시하며 근본 원인에 대한 힌트를 제공합니다. 예산, 에러율 및 p95 지연 시간에 대한 알림은 이메일, Slack 또는 Discord로 전달됩니다.

Spanlens는 수동적인 로깅 그 이상을 수행합니다. 정규 표현식 (regex) 기반의 PII (개인정보) 및 프롬프트 인젝션 (prompt-injection) 스캐너가 요청 및 응답 본문을 검사하며 프록시에서 인젝션을 차단할 수 있습니다. 절감 엔진 (savings engine)은 더 저렴한 모델의 프로필과 일치하는 호출(예: 분류 작업처럼 보이는 gpt-4o 호출)을 찾아내고 전환 시 예상되는 월간 절감액을 추정합니다. A/B 실험을 포함한 프롬프트 버전 관리 (Prompt versioning)는 통계적 유의성을 위해 Welch의 t-검정 (Welch's t-test)을 사용하여 지연 시간, 비용 및 에러율에 따른 버전을 비교하며, LLM-as-judge 평가 프레임워크 (OpenAI, Anthropic 또는 Gemini를 판사로 사용)는 루브릭 앵커 (rubric anchors)를 기준으로 출력을 점수화하고, 인간과의 일치도는 Pearson r 또는 Cohen's kappa로 측정합니다. 재사용 가능한 데이터셋은 오프라인 평가 (offline evals) 및 회귀 테스트 (regression checks)를 지원합니다.

Insights

Spanlens

요약

핵심 포인트

댓글

2WD, 4WD 및 Mecanum 로봇을 위한 Nav2, SLAM Toolbox 및 위치 추정(localization) 기반 ROS2 자율

AgentGateway란 무엇인가? 초보자와 전문가를 위한 AI-Native 게이트웨이 설명

후속 보고: 보일러플레이트(Boilerplate) 코드가 전혀 없는 Cursor AI 에이전트

왜 전환(Transformation)의 70%가 실패하는가 — 그리고 사람 중심의 해결책

AgentGateway란 무엇인가? 초보자와 전문가를 위한 AI-Native 게이트웨이 설명

후속 보고: 보일러플레이트(Boilerplate) 코드가 전혀 없는 Cursor AI 에이전트

왜 전환(Transformation)의 70%가 실패하는가 — 그리고 사람 중심의 해결책