arXiv논문2026. 06. 03. 11:04

CoEval: 레이블 데이터나 신뢰할 수 있는 벤치마크 없이 맞춤형 작업을 위한 언어 모델 순위 지정

요약

CoEval은 레이블 데이터나 기존 벤치마크 없이도 언어 모델의 성능을 평가할 수 있는 오픈 소스 프레임워크입니다. 티처 모델을 통해 오염되지 않은 새로운 벤치마크를 합성하고, 교차 패밀리 판사 앙상블을 활용해 모델의 순위를 정확하게 매깁니다.

핵심 포인트

데이터 오염 문제를 해결하기 위해 실행 시마다 새로운 항목을 합성함
인간의 레이블 없이도 티처 모델을 통해 속성이 제어된 벤치마크 생성
교차 패밀리 판사 앙상블을 통해 장황함 및 자기 선호 편향 상쇄
저렴한 비용으로 특정 도메인에 맞춤화된 리더보드 구축 가능

특정 애플리케이션을 위한 언어 모델을 선택하거나 순위를 매기는 작업은 작업별 레이블 데이터(labeled data)가 존재하지 않고, 표준 공개 벤치마크(benchmarks)를 신뢰할 수 없을 때 가장 어렵습니다. 벤치마크의 항목들이 사전 학습(pretraining) 과정에 유출되었을 가능성이 높아, 점수가 적합성(fitness)보다는 암기(memorization)를 반영하기 때문입니다. 우리는 이 간극을 엔드 투 엔드(end to end)로 메우는 오픈 소스 기반의 재사용 가능한 프레임워크인 CoEval을 제시합니다. CoEval은 작업 또는 도메인에 대한 설명만 있으면, 티처 모델(teacher models)이 인간의 레이블 없이도 속성이 제어된 새로운 벤치마크를 합성합니다. 각 실행 시 항목이 새롭게 생성되므로 오염(contamination)이 없으며, 교차 패밀리 판사 앙상블(cross-family judge ensemble)이 인간 평가자 없이 후보 모델들의 순위를 매깁니다. 정답(ground truth)이 존재하는 환경에서 검증한 결과, CoEval은 실제 모델 순위를 복구하며 ho=0.86에서 정답 정확도를 추적합니다. 레이블이 없는 판정(label-free judging)은 인간의 보정(calibration)을 필요로 하지 않는데, 이는 신뢰성을 결정하는 요인이 판사 패널의 규모가 아닌 구성(벤더 다양성)이기 때문입니다. 잘 선택된 소규모의 교차 패밀리 패널이 가장 신뢰할 수 있는 반면, 단일 판사는 정답과 음의 상관관계(judge-choice regret 0.35)를 가질 수 있지만 앙상블은 결코 그렇지 않습니다. 생성된 항목들은 5개의 주요 공개 벤치마크와 13-gram verbatim overlap(문구 일치)이 전혀 나타나지 않았습니다. 또한 패널은 장황함 편향(verbosity bias)을 상쇄하고 동일 패밀리의 자기 선호(self-preference)를 배제합니다. 4개 작업에 대한 연구를 통해 5.89달러의 비용으로 7,978개의 평가를 수행했습니다. 동일한 선언적 파이프라인(declarative pipeline)은 어떤 도메인에도 적용 가능하며, 모든 모델 출시 시마다 다시 실행할 수 있을 만큼 저렴합니다. 즉, 어떤 팀이라도 자신의 애플리케이션을 위해 재생성할 수 있는 레이블이 없고 오염되지 않은 리더보드(leaderboard)를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

CoEval: 레이블 데이터나 신뢰할 수 있는 벤치마크 없이 맞춤형 작업을 위한 언어 모델 순위 지정

요약

핵심 포인트

댓글