arXiv논문2026. 06. 15. 11:19

모든 평가의 모든 것: AI 평가 결과에 대한 통합 스키마 및 커뮤니티 저장소

요약

AI 평가 결과의 불일치와 파편화 문제를 해결하기 위해 통합 스키마 및 커뮤니티 저장소인 'Every Eval Ever'를 제안합니다. 이 프로젝트는 다양한 평가 프레임워크의 결과를 표준화된 JSON 형식으로 통합하여 비교와 재사용을 용이하게 합니다.

핵심 포인트

AI 평가 결과의 표준화를 위한 최초의 공유 스키마 도입
소스 불가지론적 설계를 통해 논문 및 평가 하네스 결과 수집 가능
기존 리더보드와 형식을 통합 스키마로 변환하는 자동 컨버터 제공
Hugging Face 기반의 대규모 모델 및 벤치마크 데이터베이스 구축

AI 평가는 진행 상황을 테스트하고 이해하기 위해 널리 사용됩니다. 하지만 다양한 평가자들은 분석과 비교를 어렵게 만드는 불일치성을 초래합니다. 첫째, 결과가 호환되지 않는 형식으로 저장되어 리더보드(leaderboards), 논문, 블로그 게시물, 평가 하네스(evaluation harness) 로그, 그리고 커스텀 저장소(custom repositories)에 흩어져 있습니다. 둘째, 결과가 서로 다른 평가 프레임워크(evaluation frameworks)에 의해 생성되는데, 이는 명목상 동일한 평가에 대해서도 서로 다른 점수를 산출하고 메타데이터를 일관성 없게 기록하여, 비교, 커뮤니티 간 평가 과학(evaluation science), 비용 절감 및 재사용을 방해합니다. 우리는 AI 평가 결과를 위한 최초의 공유 스키마이자 커뮤니티 크라우드소싱 저장소인 Every Eval Ever를 소개합니다. 이 스키마는 평가가 통일된 단일 JSON 문서 내에서 표현되는 방식을 표준화합니다. 설계 단계부터 소스 불가지론적(source-agnostic) 방식으로 제작되어, 평가 하네스(evaluation harnesses)와 논문 모두로부터 결과를 수집하며, 세밀한 분석을 위해 선택적으로 인스턴스별 출력(per-instance outputs)을 저장합니다. 우리는 다음과 같은 기여를 합니다: (i) 동종 분야 최초의 표준화 노력인, 인스턴스 수준 스키마를 동반한 커뮤니티 관리형 메타데이터 스키마; (ii) 인기 있는 형식, 평가 하네스(evaluation harnesses), 리더보드(leaderboards)를 통합 스키마로 변환하는 자동 컨버터; (iii) 현재까지 22,235개의 모델, 2,273개의 고유 벤치마크(benchmarks), 31개의 평가 형식을 아우르는 Hugging Face 기반의 크라우드소싱 커뮤니티 데이터베이스.

AI 자동 생성 콘텐츠

원문 바로가기

모든 평가의 모든 것: AI 평가 결과에 대한 통합 스키마 및 커뮤니티 저장소

요약

핵심 포인트

댓글