
Vals AI에서 @harvey의 법률 에이전트 벤치마크(Legal Agent Benchmark) 실시간 리더보드를 공개합니다.
요약
Vals AI가 @harvey의 법률 에이전트 벤치마크(Legal Agent Benchmark) 실시간 리더보드를 공개했습니다. 이 벤치마크는 비공개 테스트 세트를 사용하여 에이전트가 실제 법률 업무 환경에서 도구를 활용해 결과물을 생성하는 능력을 평가합니다.
핵심 포인트
- Fable 5가 11.25%의 점수로 법률 에이전트 성능 1위 기록
- MiniMax M3가 오픈 웨이트 모델 중 가장 높은 성능(4.17%) 달성
- 모델 성능과 테스트 비용 간의 높은 상관관계 확인
- 실제 업무 환경을 반영하기 위해 Shell, 파일 편집, Office 도구 활용 능력 평가
Vals AI에서 @harvey의 법률 에이전트 벤치마크 (Legal Agent Benchmark)를 위한 실시간 리더보드를 공개합니다.
우리는 이 벤치마크를 실시간으로 호스팅하는 첫 번째 제3자 기관입니다. 결과는 공개된 데이터셋이 아닌, 비공개로 유지된 테스트 세트 (held-out test set)를 기준으로 합니다.
이 벤치마크는 에이전트 환경 (agentic setting)에서 모델이 실제 법률 업무 결과물을 얼마나 잘 생성할 수 있는지를 테스트합니다. 각 작업은 에이전트가 특정 클라이언트의 문의에 응답하도록 요구하며, 이 과정에서 Shell 및 파일 편집 도구와 함께 Word, Excel, PowerPoint 작업에 필요한 특정 기술을 사용합니다.
접근 권한이 차단되기 전, 우리는 Fable 5 (Opus 4.8 폴백 포함)를 실행했으며, 11.25%로 1위를 차지했습니다. Opus 4.8 (9.58%)과 Sonnet 4.6 (5%)이 각각 2위와 3위를 기록했습니다. 폴백이 없는 Fable 5 역시 10.4%로 여전히 1위였습니다.
MiniMax M3 (4.17%)는 1위 오픈 웨이트 (open weight) 모델입니다.
Fable 5는 테스트당 $19.23의 비용이 발생하여, Opus 4.8 ($10.22)의 거의 두 배이며 Sonnet 4.6 ($3.04)의 6배가 넘는 비용이 들었습니다. 1위 오픈 웨이트 모델인 MiniMax M3는 테스트당 $1.46로, 폐쇄형 웨이트 (closed-weight) 모델 비용의 아주 일부분만 사용했습니다.
업무 결과물은 작업별 특정 기준에 따라 채점됩니다. 모든 기준을 통과해야만 작업이 해결된 것으로 간주되므로, 모델이 대부분의 요구 사항을 충족하더라도 헤드라인 점수는 낮게 유지됩니다. 기준 통과율 (Criteria pass rates)을 보면 이를 명확히 알 수 있습니다: Fable 5는 90.5%, Opus 4.8은 87.9%, Sonnet은 86.7%를 기록했습니다.
우리는 업스트림 (upstream)에 기여된 벤치마크의 몇 가지 변경 사항을 적용했습니다. 이전에는 판정관 (judge)이 변경 내용 추적 (tracked changes)을 볼 수 없었으나, 평가자에게 전달되기 전에 모두 수락되었습니다. 이제 판정관은 이러한 변경 사항을 볼 수 있으며, 이는 특정 기준을 통과하기 위한 필수 요구 사항입니다.
24가지 작업 유형별로 필터링 가능한 전체 결과와 인터랙티브 리더보드는 다음에서 확인할 수 있습니다-
https://vals.ai/benchmarks/hlab
Harvey의 원문 발표 내용은 여기서 읽을 수 있습니다 -
https://harvey.ai/blog/introducing-harveys-legal-agent-benchmark
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: Benchmark의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기