OpenEvals로 LLM 평가 빠르게 시작하기

평가 (evals)는 신뢰할 수 있는 LLM 기반 애플리케이션이나 에이전트 (agents)를 프로덕션 환경에 도입하는 데 중요하지만, 처음부터 평가 체계를 구축할 때는 어디서부터 시작해야 할지 막막할 수 있습니다. 우리의 새로운 패키지인 openevals와 agentevals는 쉽게 시작할 수 있는 일련의 평가자 (evaluators)와 공통 프레임워크를 제공합니다.

평가 (evals)란 무엇인가요?

평가는 귀하의 애플리케이션에 중요한 기준을 바탕으로 LLM 출력 품질을 판단하는 체계적인 방법을 제공합니다. 평가에는 두 가지 구성 요소가 있습니다: **평가 대상이 되는 데이터 (data that you’re evaluating over)**와 **평가 기준이 되는 지표 (metric that you’re evaluating on)**입니다.

평가 대상 데이터의 품질과 다양성은 평가가 실제 사용 사례를 얼마나 잘 반영하는지에 직접적인 영향을 미칩니다. 평가를 생성하기 전에, 귀하의 특정 사용 사례에 맞는 데이터셋을 큐레이션하는 데 시간을 할애하십시오. 시작하는 데는 소수의 고품질 데이터 포인트만 있으면 됩니다. 데이터셋 큐레이션에 대한 자세한 내용은 여기에서 읽어보십시오.

평가 지표 또한 애플리케이션의 목표에 따라 맞춤화되는 경우가 많지만, 사용되는 평가의 종류에는 공통적인 트렌드가 있습니다. 이것이 우리가 openevals와 agentevals를 구축한 이유입니다. 즉, 공통적인 평가 트렌드와 모범 사례 (best practices)를 보여주는 사전 구축된 솔루션을 공유하여 귀하가 쉽게 시작할 수 있도록 돕기 위함입니다.

일반적인 평가 유형 및 모범 사례

평가 유형은 매우 다양하지만, 우선 우리는 가장 흔히 사용되고 실질적으로 유용한 평가 기술을 출시하는 데 집중했습니다. 우리는 두 가지 방식으로 접근하고 있습니다:

범용적인 평가자를 쉽게 맞춤화할 수 있도록 만들기: LLM-as-a-judge 평가는 가장 광범위하게 적용 가능한 평가자입니다. openevals는 사전 구축된 예시를 가져와 귀하의 특정 사용 사례에 맞게 맞춤화하는 것을 쉽게 만들어 줍니다.

특정 사용 사례를 위한 평가자 만들기: 사용 사례는 무수히 많지만, 우리는 가장 일반적인 사례들에 대해 즉시 사용 가능한 (off-the-shelf) 평가를 구축할 것입니다. 우선, openevals와 agentevals를 통해...

문서에서 구조화된 콘텐츠를 추출하거나, 도구 호출 (tool calls) 및 에이전트 궤적 (agent trajectories)을 관리하는 애플리케이션의 사례들을 다룹니다. 저희는 애플리케이션 유형에 따라 더 구체적인 기술(예: RAG 애플리케이션 또는 멀티 에이전트 아키텍처에 특화된 평가)을 포함하도록 라이브러리를 확장할 계획입니다.

LLM-as-a-judge 평가

LLM-as-a-judge 평가자는 LLM을 사용하여 애플리케이션의 출력을 점수화합니다. 이는 주로 자연어 출력을 평가할 때 사용되기 때문에 저희가 접하는 가장 일반적인 평가자 유형입니다.

평가 시 사용 사례:

챗봇 응답의 대화 품질
요약 또는 질의응답 (question-answering) 시스템에서의 환각 (hallucination) 테스트
글쓰기 품질 및 일관성 (coherence)

중요한 점은, LLM-as-a-judge 평가는 참조 데이터가 없는 (reference free) 방식이 가능하다는 것입니다. 이를 통해 정답 (ground truth) 없이도 응답을 객관적으로 판단할 수 있습니다.

openevals가 도와주는 방법:

쉽게 맞춤 설정할 수 있는 사전 구축된 스타터 프롬프트 (starter prompts)
인간의 선호도와 더 잘 일치하도록 퓨샷 (few-shot) 예시 포함
일관된 평가를 위한 점수 체계 (scoring schema) 설정 프로세스 간소화
특정 점수가 부여된 이유에 대한 추론 코멘트 (reasoning comments)를 생성하여 평가 과정에 투명성 부여

여기에서 LLM-as-a-judge 평가자의 예시를 확인하고 시작해 보세요.

구조화된 데이터 평가 (Structured Data Evals)

많은 LLM 애플리케이션은 문서에서 구조화된 출력을 추출하거나, 도구 호출 (tool calling)을 위한 구조화된 출력을 생성하는 작업을 포함합니다. 이러한 경우 모델의 출력이 미리 정의된 형식을 준수하는 것이 중요합니다.

평가 시 사용 사례:

PDF, 이미지 또는 기타 문서에서 추출된 구조화된 정보
일관된 형식의 JSON 또는 기타 구조화된 출력
도구 호출 (예: API 호출)을 위한 파라미터 검증
출력이 특정 형식과 일치하는지 또는 특정 카테고리에 속하는지 확인

openevals가 도와주는 방법:

openevals

정확한 일치 (exact match)를 구성하거나 LLM-as-a-judge를 사용하여 구조화된 출력 (structured output)을 검증하는 기능을 제공합니다. 선택적으로, 평가자 성능에 대한 상위 수준의 뷰를 위해 피드백 키 (feedback keys) 전반에 걸쳐 점수를 집계할 수 있습니다.

구조화된 데이터 평가자 (structured data evaluators)의 예시를 확인하고 여기서 시작해 보세요.

에이전트 평가: 궤적 평가 (Trajectory evaluations)

에이전트를 구축할 때는 종종 최종 출력 그 이상에 관심을 갖게 됩니다. 즉, 에이전트가 어떻게 그 결과에 도달했는지 이해하고 싶어 합니다. 궤적 평가 (Trajectory evaluation)는 에이전트가 작업을 완료하기 위해 취하는 일련의 행동 시퀀스를 평가합니다.

평가 시 사용 사례:

도구 (Tools) 또는 도구 선택 시퀀스
LangGraph 애플리케이션의 궤적

agentevals가 도와주는 방법:

에이전트 궤적 (Agent Trajectory)을 통해 에이전트가 올바른 도구를 호출하는지 (선택적으로 엄격한 순서와 함께) 확인할 수 있으며, LLM-as-a-judge를 사용하여 궤적을 평가할 수 있습니다.
LangGraph를 사용하는 경우, Graph Trajectory를 사용하여 에이전트가 올바른 노드 (nodes)를 호출하는지 확인할 수 있습니다.

에이전트 평가의 예시를 확인하고 여기서 시작해 보세요.

LangSmith로 시간에 따른 결과 추적하기

시간에 따른 평가를 추적하고 팀과 공유하려면 결과를 LangSmith에 로깅하는 것을 권장합니다. Elastic, Klarna, Podium과 같은 기업들은 GenAI 애플리케이션을 평가하기 위해 LangSmith를 사용합니다.

LangSmith에는 프로덕션급 (production-grade) LLM 애플리케이션을 구축할 수 있도록 돕는 트레이싱 (tracing), 평가 (evaluation), 실험 (experimentation) 도구가 포함되어 있습니다. openevals 또는 agentevals를 LangSmith와 통합하는 방법에 대한 가이드를 방문해 보세요.

더 많은 기능이 곧 추가됩니다!

이것은 다양한 유형의 애플리케이션을 평가하기 위한 모범 사례 (best practices)를 코드화하려는 지속적인 노력의 시작일 뿐입니다. 앞으로 몇 주 안에 일반적인 사용 사례를 위한 더 구체적인 평가자와 에이전트 테스트를 위한 더 많은 평가자를 추가할 예정입니다.

보고 싶은 평가자에 대한 아이디어가 있나요? 저희 GitHub 리포지토리 (openevals 및 agentevals)에 이슈 (issue)를 생성해 주세요. 여러분의 애플리케이션에서 잘 작동하는 평가자를 개발했다면, 커뮤니티와 공유할 수 있도록 풀 리퀘스트 (pull requests)를 환영합니다.

Insights

OpenEvals로 LLM 평가 빠르게 시작하기

요약

핵심 포인트

평가 (evals)란 무엇인가요?

일반적인 평가 유형 및 모범 사례

LangSmith로 시간에 따른 결과 추적하기

더 많은 기능이 곧 추가됩니다!

댓글

Claude의 내부에는 10% 미만의 '개인적 사고 공간'이 존재합니다.

Tencent Hy3, 매우 낮은 파라미터 규모로 Frontier Model에 대한 급격한 격차 해소

오픈소스 유지보수자는 6개월 동안 Claude Max 20배 한도를 무료로 이용할 수 있습니다.

Claude Cowork가 모바일과 웹으로 출시됩니다.

Tencent Hy3, 매우 낮은 파라미터 규모로 Frontier Model에 대한 급격한 격차 해소

오픈소스 유지보수자는 6개월 동안 Claude Max 20배 한도를 무료로 이용할 수 있습니다.

Claude Cowork가 모바일과 웹으로 출시됩니다.