Litmus: AI 시스템 평가를 위한 제로 레이블(Zero-Label), 코드 기반 메트릭 명세(Metric Specification)
요약
Litmus는 소스 코드와 질의를 통해 평가 의도를 도출하여 AI 파이프라인을 위한 메트릭을 설계하는 제로 레이블 시스템입니다. 기존 방식과 달리 무엇을 왜 측정해야 하는지를 먼저 식별하여 정당화된 메트릭 포트폴리오를 구축합니다.
핵심 포인트
- 소스 코드 기반의 제로 레이블 메트릭 명세 방식 제안
- 평가 의도를 식별하여 단계별 메트릭 포트폴리오 구축
- 금융, 과학 QA, 위험 평가 등 실제 도메인에서 성능 검증
- 기존 베이스라인 대비 높은 관심 영역 커버리지 및 타당성 확보
- 자동화된 메트릭 구현에서 명세로의 패러다임 전환 지지
에이전트형 LLM(Large Language Model) 시스템이 프로토타입을 넘어 점점 더 다양한 도메인으로 배포됨에 따라, 이들을 평가하는 일은 더욱 중요해지는 동시에 더욱 어려워지고 있습니다. 문제는 개별 메트릭(Metric)이 신뢰할 수 없을 수 있다는 점뿐만 아니라, 평가 목표가 종종 암묵적인 상태로 남겨진다는 점입니다. 시스템이 무엇을 수행해야 하는지, 어떻게 실패할 수 있는지, 그리고 어떤 실패가 중요한지에 대한 명확한 설명이 없다면, 메트릭 선택을 정당화하거나 해석 또는 검증하기가 어려워집니다. 우리는 소스 코드와 타겟팅된 질의(interrogation)로부터 평가 의도(evaluation intent)를 이끌어냄으로써 AI 파이프라인을 위한 평가 및 모니터링 메트릭을 설계하는 제로 레이블(zero-label) 시스템인 Litmus를 제시합니다. Litmus는 평가 대상이 이미 알려져 있다고 가정하는 대신, 무엇을 왜 측정해야 하는지를 먼저 식별한 다음, 그 답변들을 정당화된 단계별 메트릭 포트폴리오(metric portfolio)를 구축하기 위한 제약 조건으로 변환합니다. 우리는 금융 계좌 그룹화, 과학 QA, 내재적 위험 평가라는 세 가지 실제 코드 정의 AI 파이프라인에서 Litmus를 AutoMetrics 및 세 가지 DynamicRubric 베이스라인과 비교하여 평가합니다. Litmus는 가장 넓거나 공동으로 가장 넓은 관심 영역 커버리지(concern coverage)를 달성하고, 더 많은 파이프라인 단계를 아우르며, 거의 중복이 없는 포트폴리오를 생성하며, 세 가지 파이프라인 모두에서 행별 품질 레이블(per-row quality labels)에 대한 타당성(validity) 순위에서 1위를 차지했습니다. 특히 과학 QA에서는 결정적인 차이를 보였으며(Spearman $ρ=0.72$ 대 모든 베이스라인의 $0.47$ 미만), 메트릭 설계 과정에서 레이블을 전혀 사용하지 않았음에도 불구하고 감사 프레임워크(audit framework)의 두 구성 요소와 관련하여 겹치는 신뢰 구간 내에 위치했습니다. 우리의 결과는 자동화된 메트릭 구현(automatic metric implementation)에서 자동화된 메트릭 명세(automatic metric specification)로의 전환을 지지합니다. 즉, 어떤 메트릭을 계산할지 묻기 전에, 평가 시스템은 무엇을 왜 측정해야 하는지를 먼저 물어야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기