LLM 관측성(Observability) 및 평가(Eval) 인덱스 (2026)

에이전트가 프로덕션(production)에 배포되면, 에이전트가 무엇을 했는지 확인하고 그것이 얼마나 유용했는지 점수를 매겨야 합니다. 여기에는 중립적인 LLM 관측성(observability) + 평가(evaluation) 도구 인덱스가 있으며, 초점(tracing / evaluation / monitoring), 호스팅(hosting), 라이선스(license)별로 분류되어 있습니다. 가격은 포함되지 않았습니다. 도구 비용이 지배적인 비용인 경우는 드물기 때문입니다.

매트릭스 (The matrix)

도구 (Tool)	초점 (Focus)	호스팅 (Hosting)	라이선스 (License)	최적의 용도 (Best for)
LangSmith	올인원 (All-in-one)	관리형 (enterprise self-host)	독점 (Proprietary)	LangChain / LangGraph 기반 구축 팀 — 네이티브 그래프 및 리플레이
...

빠른 선택 (Quick picks)

LangChain / LangGraph 기반으로 구축한다면 → LangSmith
오픈 소스(open-source)와 완전한 데이터 소유권을 원한다면 → Langfuse
엄격한 평가(evals)를 포함한 OTel 네이티브 트레이싱(tracing)을 원한다면 → Arize Phoenix
평가 우선 반복(eval-first iteration) (데이터셋, 스코어링)을 원한다면 → Braintrust 또는 Confident AI
프롬프트(prompts)에 대한 CI 회귀 테스트(regression tests)를 원한다면 → Confident AI (DeepEval)
즉시 사용 가능한 프록시 로깅(proxy logging) + 비용 제어를 원한다면 → Helicone
이미 W&B, MLflow 또는 Comet을 사용 중이라면 → Weave, MLflow 또는 Opik
벤더 중립적인 OpenTelemetry 트레이싱(tracing)을 원한다면 → Langtrace

📚 _The 2026 AI Stack Index_의 추가 정보: Automation Tools · Agent Frameworks · Vector Databases · LLM Observability · LLM Gateways

이것은 중립적이고 제휴 관계가 없는 참조 자료입니다. 가격은 포함되지 않았으며(금방 구식이 되기 때문), 유료 순위 매기기도 없습니다. FAQ 및 나머지 AI 스택 인덱스가 포함된, 항상 업데이트되는 전체 인터랙티브 버전은 aiprosol.com/llm-observability에서 확인할 수 있습니다. 공개 사항: 저는 자동화 컨설팅 업체인 Aiprosol을 운영하고 있으나, 이 인덱스는 특정 업체를 우대하지 않습니다.

Insights

LLM 관측성(Observability) 및 평가(Eval) 인덱스 (2026)

요약

핵심 포인트

매트릭스 (The matrix)

빠른 선택 (Quick picks)

댓글

병행 실행되는 여러 Claude가 중복 실행 및 누락을 일으키다 ── 지휘자 없는 장부로 충돌을 방지한 17일간

RVM과 MatAnyone2의 비디오 매팅(Video Matting) 헤일로(halo)는 '촬영 유래'인가 '코드 유래'인가 구분하기

뉴스 영상을 전자동으로 생성하는 파이프라인을 만든 이야기 ― TTS와 LLM에서 빠졌던 함정

Claude Fable 5를 활용한 웹 스크래핑 방법: 실전 2026 가이드

RVM과 MatAnyone2의 비디오 매팅(Video Matting) 헤일로(halo)는 '촬영 유래'인가 '코드 유래'인가 구분하기

뉴스 영상을 전자동으로 생성하는 파이프라인을 만든 이야기 ― TTS와 LLM에서 빠졌던 함정

Claude Fable 5를 활용한 웹 스크래핑 방법: 실전 2026 가이드