본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 03. 11:04

CoEval: 레이블 데이터나 신뢰할 수 있는 벤치마크 없이 맞춤형 작업을 위한 언어 모델 순위 지정

요약

CoEval은 레이블 데이터나 기존 벤치마크 없이도 언어 모델의 성능을 평가할 수 있는 오픈 소스 프레임워크입니다. 티처 모델을 통해 오염되지 않은 새로운 벤치마크를 합성하고, 교차 패밀리 판사 앙상블을 활용해 모델의 순위를 정확하게 매깁니다.

핵심 포인트

  • 데이터 오염 문제를 해결하기 위해 실행 시마다 새로운 항목을 합성함
  • 인간의 레이블 없이도 티처 모델을 통해 속성이 제어된 벤치마크 생성
  • 교차 패밀리 판사 앙상블을 통해 장황함 및 자기 선호 편향 상쇄
  • 저렴한 비용으로 특정 도메인에 맞춤화된 리더보드 구축 가능

특정 애플리케이션을 위한 언어 모델을 선택하거나 순위를 매기는 작업은 작업별 레이블 데이터(labeled data)가 존재하지 않고, 표준 공개 벤치마크(benchmarks)를 신뢰할 수 없을 때 가장 어렵습니다. 벤치마크의 항목들이 사전 학습(pretraining) 과정에 유출되었을 가능성이 높아, 점수가 적합성(fitness)보다는 암기(memorization)를 반영하기 때문입니다. 우리는 이 간극을 엔드 투 엔드(end to end)로 메우는 오픈 소스 기반의 재사용 가능한 프레임워크인 CoEval을 제시합니다. CoEval은 작업 또는 도메인에 대한 설명만 있으면, 티처 모델(teacher models)이 인간의 레이블 없이도 속성이 제어된 새로운 벤치마크를 합성합니다. 각 실행 시 항목이 새롭게 생성되므로 오염(contamination)이 없으며, 교차 패밀리 판사 앙상블(cross-family judge ensemble)이 인간 평가자 없이 후보 모델들의 순위를 매깁니다. 정답(ground truth)이 존재하는 환경에서 검증한 결과, CoEval은 실제 모델 순위를 복구하며 ho=0.86에서 정답 정확도를 추적합니다. 레이블이 없는 판정(label-free judging)은 인간의 보정(calibration)을 필요로 하지 않는데, 이는 신뢰성을 결정하는 요인이 판사 패널의 규모가 아닌 구성(벤더 다양성)이기 때문입니다. 잘 선택된 소규모의 교차 패밀리 패널이 가장 신뢰할 수 있는 반면, 단일 판사는 정답과 음의 상관관계(judge-choice regret 0.35)를 가질 수 있지만 앙상블은 결코 그렇지 않습니다. 생성된 항목들은 5개의 주요 공개 벤치마크와 13-gram verbatim overlap(문구 일치)이 전혀 나타나지 않았습니다. 또한 패널은 장황함 편향(verbosity bias)을 상쇄하고 동일 패밀리의 자기 선호(self-preference)를 배제합니다. 4개 작업에 대한 연구를 통해 5.89달러의 비용으로 7,978개의 평가를 수행했습니다. 동일한 선언적 파이프라인(declarative pipeline)은 어떤 도메인에도 적용 가능하며, 모든 모델 출시 시마다 다시 실행할 수 있을 만큼 저렴합니다. 즉, 어떤 팀이라도 자신의 애플리케이션을 위해 재생성할 수 있는 레이블이 없고 오염되지 않은 리더보드(leaderboard)를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0