arXiv논문2026. 06. 23. 14:24

Litmus: AI 시스템 평가를 위한 제로 레이블(Zero-Label), 코드 기반 메트릭 명세(Metric Specification)

요약

Litmus는 소스 코드와 질의를 통해 평가 의도를 도출하여 AI 파이프라인을 위한 메트릭을 설계하는 제로 레이블 시스템입니다. 기존 방식과 달리 무엇을 왜 측정해야 하는지를 먼저 식별하여 정당화된 메트릭 포트폴리오를 구축합니다.

핵심 포인트

소스 코드 기반의 제로 레이블 메트릭 명세 방식 제안
평가 의도를 식별하여 단계별 메트릭 포트폴리오 구축
금융, 과학 QA, 위험 평가 등 실제 도메인에서 성능 검증
기존 베이스라인 대비 높은 관심 영역 커버리지 및 타당성 확보
자동화된 메트릭 구현에서 명세로의 패러다임 전환 지지

에이전트형 LLM(Large Language Model) 시스템이 프로토타입을 넘어 점점 더 다양한 도메인으로 배포됨에 따라, 이들을 평가하는 일은 더욱 중요해지는 동시에 더욱 어려워지고 있습니다. 문제는 개별 메트릭(Metric)이 신뢰할 수 없을 수 있다는 점뿐만 아니라, 평가 목표가 종종 암묵적인 상태로 남겨진다는 점입니다. 시스템이 무엇을 수행해야 하는지, 어떻게 실패할 수 있는지, 그리고 어떤 실패가 중요한지에 대한 명확한 설명이 없다면, 메트릭 선택을 정당화하거나 해석 또는 검증하기가 어려워집니다. 우리는 소스 코드와 타겟팅된 질의(interrogation)로부터 평가 의도(evaluation intent)를 이끌어냄으로써 AI 파이프라인을 위한 평가 및 모니터링 메트릭을 설계하는 제로 레이블(zero-label) 시스템인 Litmus를 제시합니다. Litmus는 평가 대상이 이미 알려져 있다고 가정하는 대신, 무엇을 왜 측정해야 하는지를 먼저 식별한 다음, 그 답변들을 정당화된 단계별 메트릭 포트폴리오(metric portfolio)를 구축하기 위한 제약 조건으로 변환합니다. 우리는 금융 계좌 그룹화, 과학 QA, 내재적 위험 평가라는 세 가지 실제 코드 정의 AI 파이프라인에서 Litmus를 AutoMetrics 및 세 가지 DynamicRubric 베이스라인과 비교하여 평가합니다. Litmus는 가장 넓거나 공동으로 가장 넓은 관심 영역 커버리지(concern coverage)를 달성하고, 더 많은 파이프라인 단계를 아우르며, 거의 중복이 없는 포트폴리오를 생성하며, 세 가지 파이프라인 모두에서 행별 품질 레이블(per-row quality labels)에 대한 타당성(validity) 순위에서 1위를 차지했습니다. 특히 과학 QA에서는 결정적인 차이를 보였으며(Spearman $ρ=0.72$ 대 모든 베이스라인의 $0.47$ 미만), 메트릭 설계 과정에서 레이블을 전혀 사용하지 않았음에도 불구하고 감사 프레임워크(audit framework)의 두 구성 요소와 관련하여 겹치는 신뢰 구간 내에 위치했습니다. 우리의 결과는 자동화된 메트릭 구현(automatic metric implementation)에서 자동화된 메트릭 명세(automatic metric specification)로의 전환을 지지합니다. 즉, 어떤 메트릭을 계산할지 묻기 전에, 평가 시스템은 무엇을 왜 측정해야 하는지를 먼저 물어야 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Litmus: AI 시스템 평가를 위한 제로 레이블(Zero-Label), 코드 기반 메트릭 명세(Metric Specification)

요약

핵심 포인트

댓글