테스트 실행 비교 (Test Run Comparisons)

제가 관찰한 한 가지 패턴은 훌륭한 AI 연구자들은 많은 데이터를 수동으로 검토할 의지가 있다는 점입니다. 게다가 그들은 데이터를 빠르게 수동으로 검토할 수 있게 해주는 인프라를 구축합니다. 화려하지는 않지만, 데이터를 수동으로 조사하는 것은 문제에 대한 귀중한 직관을 제공합니다.

Jason Wei, OpenAI

평가 (Evaluations)는 LLM 애플리케이션을 구축할 때 여전히 가장 어려운 부분 중 하나입니다. 프롬프트 (prompt), 체인 (chain), 또는 에이전트 (agent)의 변경 사항이 미치는 영향을 정량적인 방식으로 평가하는 것은 정말 어렵습니다. 우리는 LLM 보조 평가 (LLM-assisted evaluation)에 대해 낙관적이지만, 동시에 그것들을 완전히 신뢰하기는 어렵다는 점을 분명히 인지하고 있습니다.

위의 Jason의 트윗은 우리가 최고의 연구자들(및 엔지니어들)이 수행하는 많은 모습을 요약해 줍니다. 그들은 문제에 대한 직관을 얻기 위해 데이터를 수동으로 검토하기를 원합니다. LangChain에서 우리는 이를 돕기 위한 인프라를 구축하고자 하며, 이것이 바로 오늘 Test Run Comparisons를 발표하게 된 이유입니다.

LangSmith의 초기 출시 버전에서는 LLM 보조 피드백 (LLM-assisted feedback)을 통한 점수 산정을 포함하여 테스트를 실행하는 기능을 지원했습니다. 하지만 각 테스트는 개별적으로 실행되었습니다. 우리는 두 가지 사용 패턴이 나타나는 것을 빠르게 확인했습니다:

사람들은 여전히 LLM 보조 피드백을 직접 신뢰하는 것을 주저합니다.
사용자들은 종종 자신의 테스트 실행을 개별적으로 점수 매길 뿐만 아니라, 이전 반복 (iterations)과 비교하기를 원합니다.

Test Run Comparisons를 구축할 때, 우리는 이 두 가지 통찰을 모두 염두에 두었습니다. 우리는 여러 테스트 실행을 나란히(side-by-side) 볼 수 있는 쉬운 UX를 만들고 싶었습니다. 또한 사람들이 LLM 보조 평가 (LLM-assisted evals, 또는 regex/기타 평가)를 사용하여 초기 점수를 얻은 다음, 추가적인 통찰을 위해 해당 데이터 포인트들을 수동으로 탐색할 수 있는 쉬운 UX를 만들고자 했습니다.

그렇다면 어떻게 작동할까요?

먼저, 데이터셋 (dataset)을 설정하고 몇 가지 테스트를 실행해야 합니다. 방법은 여기 문서를 참조하세요. 새로운 내용은 아니므로, 기존 프로젝트에서 이미 수행했다면 문제없습니다.

데이터셋 내부에서 두 개(또는 그 이상)의 테스트 실행을 쉽게 선택한 다음, Compare를 클릭하면 됩니다.

그곳에서 테스트 실행 비교 (Test Run Comparison) 뷰로 이동하게 됩니다. 모습은 아래와 같을 것입니다.

각 데이터 포인트 (datapoint)에 대한 입력값 (inputs), 참조 출력값 (reference output), 그리고 실제 출력값 (actual output)을 쉽게 확인할 수 있으며, 해당 실행에 대한 평가 지표 (eval metrics), 시간 (time) 및 지연 시간 (latency)도 함께 볼 수 있습니다.

이 뷰는 동일한 입력값에 대해 여러 테스트 실행을 빠르게 비교할 수 있도록 설계되었습니다. 특정 데이터 포인트 (datapoint)를 더 자세히 보고 싶다면 해당 행을 클릭하면 됩니다. 그러면 사이드바 (sidebar)가 나타나 해당 실행의 세부 사항을 심층 분석 (drill down)할 수 있습니다.

또한 해당 사이드바에 실행 간을 쉽게 전환할 수 있도록 위아래 화살표 (▲ 및 ▼)를 추가했습니다.

이 뷰를 통해 특정 데이터 포인트 (datapoint)에 대한 실행 결과들을 쉽게 비교할 수 있기를 바랍니다. 하지만 어떤 데이터 포인트 (datapoint)를 살펴봐야 할지는 어떻게 알 수 있을까요?

Excel과 유사하게 각 열 (column)마다 필터 (filter)를 추가했습니다. 이 필터들을 사용하여 원하는 기준에 따라 행을 필터링할 수 있습니다.

💡

처음에 사용하기를 권장하는 기준은 무엇일까요? 하나의 테스트 실행은 정답을 맞힌 데이터 포인트 (datapoints)로 필터링하고, 다른 하나는 오답을 낸 데이터 포인트 (datapoints)로 필터링해 보세요. 이를 통해 두 테스트 실행 간의 유의미한 차이가 발생하는 지점을 빠르게 심층 분석 (drill)할 수 있으며, 무엇이 변했는지 더 쉽게 발견할 수 있습니다.

LLM 애플리케이션을 구축하는 것은 어렵습니다. 그중 큰 부분은 LLM이 특정 작업에서 어떻게 작동하는지 이해하는 것입니다. 평가 데이터셋 (evaluation dataset)을 설정하고 해당 데이터셋에 대한 실행 결과를 쉽게 비교할 수 있는 능력은 애플리케이션 개선에 필요한 이해도를 높이는 데 매우 중요합니다. LangSmith의 테스트 실행 비교 (Test Run Comparison)는 이 문제를 해결하는 것을 목표로 합니다. 여러분의 피드백을 기다립니다!

LangSmith는 프라이빗 베타 (private beta) 단계입니다 - 여기서 신청하세요. 향후 몇 주 동안 더 많은 액세스 권한을 배포할 예정이며, 이와 같은 기능들도 계속 추가해 나갈 것입니다.

Insights

테스트 실행 비교 (Test Run Comparisons)

요약

핵심 포인트

댓글

AI 에이전트의 환각(Hallucination) 방지: 에이전트가 메모리에 기록하기 전에 검증하기

유가가 '위험 구역'을 벗어남에 따라, 역사가 주식 시장에 시사하는 다음 단계는 무엇인가

github-code Web Component

AI 에이전트의 환각(Hallucination) 방지: 에이전트가 메모리에 기록하기 전에 검증하기

유가가 '위험 구역'을 벗어남에 따라, 역사가 주식 시장에 시사하는 다음 단계는 무엇인가

github-code Web Component