
Hugging Face 모델 페이지에서 모든 EEE 커뮤니티 평가 결과 제공
요약
Hugging Face가 모델 평가 결과의 파편화 문제를 해결하기 위해 EEE(EvalEval Coalition)와 Community Evals를 결합하여 출시했습니다. 단일 JSON 스키마를 통해 평가 주체, 모델, 설정 등을 표준화하여 모델 성능과 안전성을 투명하게 비교할 수 있도록 지원합니다.
핵심 포인트
- EEE 표준 JSON 스키마를 통한 평가 데이터의 통합 및 표준화
- 분산된 벤치마크 점수와 리더보드 데이터를 단일 형식으로 수용
- 평가 설정(generation settings) 및 실행 주체에 대한 투명성 확보
- Hugging Face Community Evals와의 연동을 통한 데이터 기여 편의성 증대
EEE는 2026년 2월, 1차 및 3차 평가자 모두가 AI 평가 결과를 보고하는 방식을 개선하기 위한 최초의 기관 간 협력 프로젝트인 EvalEval Coalition의 일환으로 출시되었습니다. Hugging Face는 Hub에서 벤치마크 점수가 보고되는 방식을 분산화하기 위해 2026년 2월 Community Evals를 출시했습니다. 이 두 프로젝트가 결합되어 사용자, 연구자 및 정책 입안자가 평가와 모델을 신뢰하고, 이해하고, 선택하는 방식의 격차를 메워줍니다.
평가 결과는 모델의 능력을 측정하고, 모델 간에 비교하며, 안전성과 거버넌스에 대해 추론하는 방법이지만, 현재는 여기저기 흩어져 있어 비교하기가 어렵습니다. 평가 결과는 논문, 리더보드 (leaderboards), 블로그 게시물, 하네스 로그 (harness logs) 등 다양한 곳에 각기 다른 형식으로 존재합니다. 동일한 벤치마크에 대해 동일한 모델이라 하더라도 누가 어떻게 실행했느냐에 따라 종종 다른 점수가 반환됩니다. 예를 들어, LLaMA 65B는 MMLU에서 63.7과 48.8이라는 두 가지 점수가 모두 보고된 바 있습니다. 이러한 격차는 우리가 흔히 보고되지 않는다고 발견한 평가 설정(evaluation settings)에서 발생할 수 있습니다.
EEE는 보고 측면을 해결하기 위한 우리의 해결책입니다. 이는 다음과 같은 사항을 기록하는 평가 결과용 단일 JSON 스키마 (JSON schema)입니다:
- 누가 실행했는가
- 어떤 모델인가
- 어떻게 액세스했는가
- 생성 설정 (generation settings)
- 지표 (metric)가 실제로 의미하는 것
- [권장] 샘플별 출력을 위한 동반 JSONL 파일
이 스키마는 연구자 및 정책 연구자들의 피드백을 바탕으로 구축되었으며, 하네스 로그 (harness logs), 리더보드 스크래핑 (leaderboard scrapes), 논문 수치 등 모든 출처의 결과를 수용하므로 모두 동일한 형태로 통합됩니다. GitHub 저장소에는 컨버터 (converters), 예시, 기여자 가이드가 포함되어 있습니다. 출시 이후 Hugging Face의 데이터 저장소는 31개의 서로 다른 보고 형식을 통해 22,000개 이상의 모델과 2,200개의 벤치마크에 걸쳐 약 229,000개의 평가 결과로 성장했습니다. 이 실행 결과들을 처음부터 다시 재현하는 데에는 수십만 달러의 비용이 들 수 있으며, 이는 누군가 데이터를 생성하기 위해 비용을 지불한 후 데이터가 흩어지게 두지 말아야 한다는 합리적인 근거가 됩니다.
스키마와 기여 방법에 대해 자세히 알아보려면 여기를 참조하세요.
이제 더 나은 통합(Integration)과 속성(Attribution) 기능이 함께 제공됩니다. 기여자는 이제 EEE 결과를 Hugging Face Community Evals로 보낼 수 있습니다. 저희는 사용자의 EEE 기록을 가져와 Hugging Face가 기대하는 작은 YAML 파일로 작성해 주는 컨버터(Converter)를 구축했으므로, 동일한 결과를 두 가지 형식으로 수동으로 유지할 필요가 없습니다.
이는 기존 EEE 기여자뿐만 아니라 평가를 보고하거나 읽는 모든 사람을 위한 새로운 기능입니다. 자신의 모델에 대해 보고하는 퍼스트 파티(First-party) 평가자와 타인의 모델에 대해 보고하는 서드 파티(Third-party) 평가자 모두 Community Evals와 EEE에 제출할 수 있으며, 허브(Hub)를 탐색하는 모든 사람은 전체 기록으로 추적 가능한 결과를 얻게 됩니다. 조직의 공식 Hugging Face 계정을 통해 데이터를 제출하면, 결과가 EvalEval에서 인증된 체크표시(Verified checkmark)와 함께 표시되어 독자들에게 해당 수치가 출처에서 직접 왔다는 신호를 전달합니다. 이 게시물의 나머지 부분에서는 Community Evals가 무엇인지, 그리고 컨버터가 어떤 역할을 하는지 설명합니다.
Hugging Face Community Evals에는 두 가지 측면이 있습니다.
벤치마크(Benchmark)는 eval.yaml을 추가하여 스스로를 등록하는 데이터셋 리포지토리(Dataset repo)에 존재합니다. 일단 등록되면, 해당 데이터셋 페이지는 허브 전체에서 해당 벤치마크에 대해 보고된 모든 점수의 리더보드(Leaderboard)를 수집하고 표시합니다. 공식 벤치마크 목록은 시간이 지남에 따라 계속 늘어납니다.
모델의 점수는 모델 리포지토리 내부의 .eval_results/*.yaml에 존재합니다. 이 점수들은 모델 카드(Model card)에 표시되며 일치하는 벤치마크 리더보드로 전달됩니다. 모델 작성자 본인의 결과와 풀 리퀘스트(Pull request, PR)를 통해 다른 사람이 제출한 결과가 모두 집계되며, 각 점수에는 작성자 제출(Author-submitted), 커뮤니티 제출(Community-submitted), 또는 독립 검증(Independently verified) 여부를 나타내는 배지가 붙습니다. 누구나 적절한 YAML 파일로 PR을 열어 어떤 모델에든 점수를 추가할 수 있으며, 모델 작성자는 자신의 리포지토리에서 PR을 닫거나 결과를 숨길 수 있습니다.
다음은 이러한 리더보드 중 하나의 모습입니다:
허브 상의 Humanity's Last Exam에 대한 Community Evals 리더보드
이 지점이 바로 EEE와 Community Evals가 결합되는 곳입니다. 두 곳 모두에 결과를 전송하면 두 가지 일이 일어납니다. 첫째, 귀하의 점수가 Hugging Face 모델 페이지에 표시되고 벤치마크의 리더보드(leaderboard)로 수집됩니다. 둘째, 생성 설정(generation config), 하네스 버전(harness version), 재현성 노트(reproducibility notes) 및 모든 인스턴스 수준 데이터(instance-level data)가 저장되어 있는 전체 EEE 기록으로 직접 연결되는 소스 배지(source badge)가 함께 부여됩니다.
EEE Datastore의 평가(MMLU-Pro) (a)가 Hugging Face 모델 카드(b)와 파일 수준에서 상호 연결된 모습. Source EvalEval 배지는 전체 JSON 기록으로 연결됩니다.
두 목적지는 동일한 목표를 향해 서로 다른 역할을 수행합니다. Hugging Face는 사람들이 모델을 살펴보는 곳에 소스로의 링크와 함께 귀하의 결과를 배치합니다. EEE는 결과를 해석 가능하게 만드는 전체 구조화된 기록을 유지하며, 이를 기반으로 Eval Cards를 구동합니다. 데이터를 두 곳 모두에 전송하면 동일한 평가 결과가 동시에 가시화되고 읽기 쉬운 상태가 되며, 이것이 바로 보고를 수행하는 목적입니다.
아래에서 이러한 상호 호환성을 확인할 수 있습니다. 위 모델 카드에 나타나는 것과 동일한 GPQA 점수가 Eval Cards에도 렌더링되며, 이는 EEE 실행 데이터(run data)를 벤치마크 및 모델 메타데이터와 결합하여 하나의 해석 가능한 기록으로 구성합니다. 동일한 평가이지만, 보여지는 방식이 다릅니다:
Hugging Face는 .eval_results/ 하위의 YAML 파일로 모델 저장소(repo)에 평가 점수를 저장합니다. 필수 필드는 벤치마크 데이터셋(benchmark dataset), 태스크(task), 그리고 값(value)뿐입니다. 소스 블록(source block)은 EEE로의 백링크(backlink)를 생성하는 부분입니다.
- dataset:
id: openai/gsm8k
task_id: gsm8k
...
컨버터(converter)는 귀하의 기존 기록으로부터 이 내용을 채웁니다. 컨버터는 source_data.hf_repo를 dataset.id로, evaluation_name을 task_id로, score_details.score를 value로, 그리고 evaluation_timestamp를 date로 매핑한 다음, 개별 레코드별 EEE JSON으로 연결되는 소스 링크로서 데이터스토어(datastore) 객체 URL을 삽입합니다. 현재 MMLU-Pro, GPQA, HLE, GSM8K 등 4개의 공식 벤치마크를 처리합니다.
컨버터(converter)는 단순히 필드를 재구성하는 것 이상의 역할을 수행합니다. 사용자가 하나의 EEE 데이터스토어(datastore) 컬렉션을 지정하면, 컨버터는 해당 컬렉션과 참조된 레코드들을 함께 다운로드하고, 객체 해시(object hashes)를 확인하며, 지원되는 벤치마크(benchmark)에 매핑되는 점수(scores)를 찾아냅니다. 데이터를 실제로 기록하기 전에 이미 존재하는 항목들을 감사(audit)합니다. 즉, 모델의 메인 브랜치 및 열려 있는 PR(Pull Request)에 있는 모든 .eval_results YAML 파일을 읽고, 파일명이 아닌 데이터셋(dataset)과 태스크(task)별로 비교합니다. 점수가 이미 존재하는 경우 already_present로 표시되고, 다른 점수가 있는 경우 score_conflict로 플래그(flag)가 지정되며, 모델 저장소(repo)가 허브(Hub)에서 확인되지 않는 경우 missing_hf_model로 표시됩니다. 그 외의 모든 항목은 ready로 표시됩니다.
사용자의 승인 없이는 아무것도 푸시(push)되지 않습니다. 이 도구는 사용자가 검토할 수 있는 로컬 YAML 미리보기와 리뷰 파일을 작성하고, 준비된 항목과 주의가 필요한 항목에 대한 보고서를 보여줍니다. 또한 사용자가 OPEN PRS를 입력하고 커밋 메시지(commit message)를 입력한 후에만 PR을 생성합니다. 재실행 시 --force 옵션을 전달하지 않는 한, 컬렉션에 대한 캐시된(cached) 결과가 재사용됩니다.
컨버터의 리뷰 단계. 제외된 항목(여기서는 일치하는 허브 저장소가 없는 모델)은 EEE 소스 URL과 함께 나열되며, 준비된 PR은 명시적인 OPEN PRS 확인을 기다립니다.
전체 레코드를 EEE 데이터스토어에 제출하십시오.
EEE를 활용하는 데는 단 한 단계의 추가 과정이 필요하며, 컨버터가 이를 대부분 자동화합니다. 커뮤니티 평가 컨버터(community eval converter) 도구는 GitHub 저장소에서 찾을 수 있습니다. 컬렉션을 처리하려면 다음을 실행하십시오:
uv run tools/hf-community-evals/community_evals_converter.py MMLU-Pro \
--datastore evaleval/EEE_datastore@main
미리보기와 생성된 보고서를 검토한 후, 제출할 준비가 되면 OPEN PRS를 입력하십시오. 스키마(schema), CLI 및 컨버터에 대한 전체 문서는 evalevalai.com/every_eval_ever/hf-community-evals에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HuggingFace Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기