LangSmith의 재사용 가능한 평가기(Evaluator) 및 평가기 템플릿

핵심 요약

평가기 템플릿(Evaluator templates)은 즉시 시작할 수 있는 기반을 제공합니다. LangSmith는 이제 안전성(safety), 응답 품질(response quality), 궤적(trajectory), 사용자 행동(user behavior), 그리고 멀티모달 평가(multimodal evaluation)를 아우르는 30개 이상의 템플릿을 포함합니다. 이를 그대로 사용하거나 커스텀하여 온라인 모니터링(online monitoring)과 오프라인 실험 실행(offline experiment runs) 모두에 활용할 수 있습니다.

평가기를 한 번 구축하여 어디에서나 적용하세요. 새로운 평가기(Evaluators) 탭을 통해 워크스페이스 내의 모든 평가기를 중앙 집중식으로 관리할 수 있습니다. 기존 평가기를 새로운 트레이싱 프로젝트(tracing project)에 몇 초 만에 연결할 수 있으므로, 중복된 복사본을 유지할 필요 없이 조직 전체에서 안전성 검사 및 품질 지표(quality metrics)를 일관되게 유지할 수 있습니다.

훌륭한 평가(evals)를 위해서는 다각적인 수준의 커버리지가 필요합니다. 최종 답변만을 확인하는 단일 평가기로는 검색 에이전트(retrieval agent)가 올바른 문서를 가져왔는지, 혹은 계획 에이전트(planning agent)가 작업을 올바르게 위임했는지 파악할 수 없습니다. 효과적인 에이전트 평가(agent evaluation)란 개별 단계(individual steps), 전체 궤적(full trajectories), 멀티턴 대화(multi-turn conversations), 그리고 트레이스(trace) 내의 특정 도구 호출(tool calls)을 모두 테스트하는 것을 의미합니다.

오늘 우리는 LangSmith Evaluation에 대한 두 가지 업데이트인 **재사용 가능한 평가기(reusable evaluators)**와 **평가기 템플릿 라이브러리(evaluator template library)**를 출시합니다.

재사용 가능한 평가기는 여러 트레이싱 프로젝트에 걸쳐 평가기를 확인, 관리 및 적용할 수 있는 단일 공간을 제공합니다. 평가기 템플릿은 팀이 모든 것을 처음부터 구축하지 않고도 에이전트를 테스트하고 모니터링할 수 있도록 즉각적인 시작점을 제공합니다.

평가가 막히는 지점

에이전트를 구축할 때 무엇이 "좋은" 것인지 정의하는 것은 가장 어려운 문제 중 하나입니다. 에이전트가 올바른 도구(tool)를 호출하더라도 응답 형식이 좋지 않을 수 있습니다. 단일 턴(single-turn) 상호작용은 잘 처리하지만 멀티턴(multi-turn) 대화에서는 무너질 수도 있습니다. 또한 최종 답변만을 확인하는 단일 평가기로는 검색 에이전트(retrieval agent)가 올바른 문서를 가져왔는지, 혹은 계획 에이전트(planning agent)가 위임할 올바른 서브 에이전트(subagent)를 선택했는지 알려주지 못합니다. 개별 단계, 전체 궤적, 전체 대화, 그리고 때로는 트레이스 내의 특정 도구 호출과 같이 다양한 수준에서의 평가(evals)가 필요합니다.

그러한 수준에서 평가기(Evaluators)를 구축하는 데는 몇 주가 걸릴 수 있습니다. 프롬프트를 작성하고, 실제 데이터와 대조하여 점수를 확인하고, 튜닝한 뒤, 이 과정을 반복해야 합니다. 이러한 반복(Iteration)은 중요하지만, 매번 처음부터 시작한다면 에이전트(Agent)를 개선하는 대신 기초적인 작업에 시간을 허비하게 됩니다. 또한, 일단 좋은 평가기를 구축하고 나면, 별도의 복사본을 유지 관리하지 않고도 여러 트레이싱(Tracing) 프로젝트에 걸쳐 이를 적용하고 싶을 것입니다.

우리는 openevals 평가기 프레임워크부터 평가기 보정(Calibration)을 위한 Align Evals, 그리고 멀티모달(Multimodal) 평가기 지원에 이르기까지, 1년 넘게 LangSmith에서 평가 도구를 구축해 왔습니다. 오늘 출시되는 버전에는 가장 많은 요구가 있었던 두 가지 기능이 추가됩니다.

평가기 템플릿 (Evaluator templates)

우리는 프로덕션 환경에서 에이전트를 운영하는 많은 팀과 협력해 왔으며, 동일한 평가 질문들이 계속해서 등장하는 것을 확인했습니다: 에이전트가 안전한가? 응답이 실제로 좋은가? 목표에 도달하기 위해 올바른 단계를 밟았는가?

템플릿은 가장 자주 발생하는 카테고리들을 다룹니다:

안전 및 보안 (Safety and security): 프롬프트 인젝션(Prompt injection) 탐지, 개인정보(PII) 확인, 편향성(Bias) 및 독성(Toxicity)
응답 품질 (Response quality): 정확성(Correctness), 유용성(Helpfulness), 어조(Tone)
궤적 (Trajectory): 에이전트가 올바른 단계를 밟았는가?
사용자 행동 분석 (User behavior analysis): 언어 분포, 만족도 신호
멀티모달 (Multimodal): 음성 및 이미지 검토

이것들은 사용 가능한 30개 이상의 평가기 템플릿 중 일부입니다. 템플릿에는 튜닝된 프롬프트가 포함된 LLM-as-judge 평가기와 규칙 기반(Rule-based) 코드 평가기가 포함되어 있습니다. 이를 그대로 사용하거나 귀하의 에이전트에 맞게 커스텀할 수 있습니다.

이 템플릿들은 온라인 및 오프라인 평가 모두에 작동합니다. 온라인 평가의 경우, 템플릿은 프로덕션 트래픽을 분류하는 데 도움을 줍니다: 프롬프트 인젝션을 탐지하거나, 예상치 못한 사용자 행동을 플래그(Flag) 처리하거나, 사람의 검토가 필요한 트레이스(Traces)를 드러내는 등의 작업입니다. 귀하의 수정 사항을 사용하여 평가기 프롬프트를 튜닝함으로써 다음번에 더 나은 성능을 내도록 할 수 있습니다.

오프라인 평가의 경우, 템플릿은 데이터셋 전체에 걸쳐 실험을 실행하기 위한 시작점을 제공합니다. 평가기를 실행하고, 점수를 확인하고, 실패 사례로 필터링하여 무엇이 잘못되었는지 이해하십시오.

이 템플릿들은 오늘 출시된 openevals v0.2.0에서도 사용할 수 있으며, 음성 및 이미지 출력(voice and image outputs)을 평가하기 위한 새로운 멀티모달(multimodal) 지원이 추가되었습니다. 코드에서 직접 사용하거나 LangSmith UI를 통해 사용할 수 있습니다.

재사용 가능한 평가기 (Reusable evaluators)

잘 작동하는 평가기를 구축했다면, 이를 중앙에서 관리할 방법이 필요합니다. 새로운 **평가기 탭 (Evaluators tab)**은 어떤 프로젝트에 연결되어 있는지와 관계없이 워크스페이스의 모든 평가기를 보여줍니다. 트레이싱 프로젝트(tracing project)별로 필터링할 수 있으며, 기존 평가기를 몇 초 만에 새로운 프로젝트에 연결할 수 있습니다.

만약 팀이 조직 전체의 평가 품질(안전 점검 정의, 품질 지표 표준화 등)을 담당하고 있다면, 평가기를 한 번만 구축하여 어디에서나 적용할 수 있습니다. 더 이상 모든 트레이싱 프로젝트마다 동일한 안전 평가기(safety evaluator)의 별도 복사본을 유지 관리할 필요가 없습니다.

특정 트레이싱 프로젝트에서 작업하는 개별 엔지니어의 경우, 경험은 단순하게 유지됩니다. 트레이싱 뷰(tracing view)에서 프로젝트 범위 내로 제한된(scoped) 평가기를 빠르게 추가하고 구성할 수 있습니다.

예를 들어, 템플릿을 사용하여 프롬프트 인젝션(prompt injection) 평가기를 구축했다고 가정해 보겠습니다. 프롬프트를 튜닝하고 샘플 데이터로 검증하여 잘 작동하는 것을 확인했습니다. 재사용 가능한 평가기를 사용하면, 한 곳에서 모든 운영(production) 트레이싱 프로젝트에 이 평가기를 연결할 수 있습니다. 프롬프트를 개선하면 업데이트 사항이 모든 곳에 적용됩니다.

향후 계획

새로운 기능들을 사용해 보시고 여러분에게 어떻게 작동하는지 알려주세요. 다음 단계로, 어떤 평가에 비용이 발생하는지 추적하고 그에 따라 예산을 설정할 수 있도록 비용 가시성(spend visibility) 기능을 추가할 예정입니다.

시작하기

평가기 템플릿(Evaluator templates)과 재사용 가능한 평가기(reusable evaluators)는 현재 LangSmith에서 바로 사용할 수 있습니다.

Insights

LangSmith의 재사용 가능한 평가기(Evaluator) 및 평가기 템플릿

요약

핵심 포인트

핵심 요약

평가가 막히는 지점

평가기 템플릿 (Evaluator templates)

재사용 가능한 평가기 (Reusable evaluators)

향후 계획

시작하기

댓글

Penguin Solutions, Non-GAAP EPS $0.84로 예상치 $0.28 상회, 매출 $479M로 $57.64M 상회

Fast Geometric Ensembling 논문 해설: 저손실 경로를 통한 고속 앙상블

자율형 AI 에이전트 「업계 특화」(Gov·지자체, SaaS, EC) & RAG를 스크래치로 제작했습니다.

Claude Code를 스마트폰에서 사용하기. 자작 클라이언트 앱과 공식 Remote Control 비교

Fast Geometric Ensembling 논문 해설: 저손실 경로를 통한 고속 앙상블

자율형 AI 에이전트 「업계 특화」(Gov·지자체, SaaS, EC) & RAG를 스크래치로 제작했습니다.

Claude Code를 스마트폰에서 사용하기. 자작 클라이언트 앱과 공식 Remote Control 비교