arXiv논문2026. 06. 24. 11:08

모든 평가를 실행할 필요는 없습니다

요약

모델 평가 시 수많은 벤치마크를 모두 실행할 필요 없이, 소수의 핵심 벤치마크만으로도 모델의 성능을 예측할 수 있는 연구를 소개합니다. 84개 모델의 점수 행렬이 랭크-2 특성을 가진다는 점을 발견하여 BenchPress라는 행렬 완성 기법을 제안했습니다.

핵심 포인트

벤치마크 점수 행렬이 낮은 랭크(rank-2)를 가짐을 발견
BenchPress를 통해 미보유 벤치마크 점수를 높은 정확도로 복구 가능
GPQA-D, MMLU-Pro 등 소수의 서브셋으로 모델 성능 예측 가능
추론 비용을 절감하면서도 효율적인 모델 평가 방법론 제시

최신 모델 출시 시에는 40개 이상의 벤치마크 (benchmarks) 점수가 보고되며, 모델 출시 전에도 훈련 진행 상황을 추적하고, 설계 선택지를 비교하며, 출시할 체크포인트 (checkpoint)를 선정하기 위해 동일한 평가를 훨씬 더 많이 수행합니다. 하지만 우리가 모든 평가를 실행할 필요가 있을까요? 우리는 133개의 벤치마크 (benchmarks)에 대한 84개의 프런티어 모델 (frontier models)의 공개 점수 행렬 (score matrix)을 컴파일하였으며 (2,604개 셀, 23.3% 채워짐), 이것이 대략 랭크-2 (rank-2)임을 발견했습니다. 즉, 133개 벤치마크 전체에 걸친 모델의 점수는 단 두 개의 숫자에 의해 크게 결정됩니다. 우리는 두 가지 방식으로 이를 확인했습니다. 행렬에서 숨겨진 점수들은 두 개의 요인 (factors)을 사용하여 가장 잘 복구되었으며, 두 개의 요인이 이미 벤치마크를 공유하는 모델들 사이 변동성의 90% 이상을 설명합니다. 이를 바탕으로, 우리는 미보유 점수를 4.6점 이내로 복구하는 로짓 공간 랭크-2 행렬 완성 (logit-space rank-2 matrix completion) 방법인 BenchPress와, 각 예측을 언제 신뢰할 수 있는지 알려주는 신뢰 계층 (confidence layer)을 설계했습니다. BenchPress를 사용하여, 우리는 모델의 나머지 공개 성적표를 3.93점 이내로 복구할 수 있는 5개의 벤치마크 서브셋 {GPQA-D, HLE, Codeforces, MMLU-Pro, ARC-AGI-1}을 찾아냈습니다. 더 타이트한 추론 예산 (inference budget)을 위해서는, {GPQA-D, MMLU-Pro, Aider Polyglot, MATH-500, AIME 2026}이라는 더 저렴한 세트가 모델의 평가 점수를 4.55점 이내로 예측할 수 있습니다. 우리는 점수 행렬, BenchPress 코드, 그리고 어떤 모델의 어떤 벤치마크 점수든 예측할 수 있는 인터랙티브 도구를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

모든 평가를 실행할 필요는 없습니다

요약

핵심 포인트

댓글