arXiv논문2026. 05. 08. 16:55

Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous

요약

본 논문은 현재 LLM 리더보드가 전역적(global) 순위에 의존하는 것이 오해의 소지가 있으며, 모델 간의 성능 차이를 정확하게 반영하지 못함을 분석합니다. 연구진은 대규모 비교 데이터를 분석하여 상위 모델들이 통계적으로 구별하기 어려움을 발견하고, 이러한 실패가 언어 및 작업에 따른 구조적 의견 불균형 때문임을 밝혀냈습니다. 이에 대한 해결책으로 예측 오차와 커버율을 고려하는 $(λ, ν)$-포트폴리오 프레임워크를 제안하며, 이 방법론이 전역 랭킹보다 훨씬 더 많은 투표 데이터를 포착하고 모델의 진정한 성능을 복원할 수 있음을 입증했습니다.

핵심 포인트

전통적인 LLM 리더보드는 대규모 비교 데이터 분석 결과, 상위 모델들이 통계적으로 구별하기 어려워 오해를 유발합니다.
LLM의 성능 차이는 언어(Language)와 작업(Task) 같은 하위 집단에 따라 구조적 불균형을 보이며, 전역 랭킹은 이를 제대로 반영하지 못합니다.
연구진은 예측 오차($ ext{λ}$)와 커버율($ ext{ν}$)을 고려하는 $(λ, ν)$-포트폴리오 프레임워크를 제안하여 모델의 진정한 성능을 측정할 수 있는 새로운 접근 방식을 제시했습니다.
제안된 포트폴리오 방법론은 전역 랭킹보다 훨씬 더 많은 투표 데이터를 커버하고, 모델 집합이 데이터의 잠재적 편향이나 맹점(blind spots)을 탐지하는 데 유용함을 보여줍니다.

개방형 작업 (예: 창의적 글쓰기 및 문제 해결) 의 현재 리더보드는 쌍대 인간 피드백을 통한 LLM 랭킹에 기반합니다. 우리는 Arena 에서 116 개 언어, 52 개의 LLM 에서 ~89K 비교를 분석하여 전역 Bradley-Terry (BT) 랭킹이 오해의 소지가 있음을 보여줍니다. 결정적 투표의 거의 2/3 이 상쇄되며, 전역 BT 랭킹에 따른 상위 50 개 모델은 통계적으로 구별할 수 없습니다 (상위 50 개 모델 내 쌍대 승률은 최대 0.53 입니다). 우리는 이러한 실패를 언어, 작업, 시간에 걸친 강한 구조적 의견 불균형으로 추적합니다. 또한 중요한 특징을 발견했습니다 - 언어가 핵심적인 역할을 합니다. 언어 (및 가족) 로 그룹화하면 투표의 동의율이 크게 증가하여 ELO 점수 (즉, 매우 일관된 랭킹) 의 분산이 2 개 차자 높습니다. 전역 노이즈로 보이는 것은 사실 일관되지만 충돌하는 하위 집단의 혼합입니다. 감독 학습에서의 이러한 불균형을 해결하기 위해 우리는 $(λ, ν)$-포트폴리오 프레임워크를 소개합니다. 이는 예측 오차 $λ$ 이하를 달성하고 적어도 $ν$ 분수의 사용자를 '커버'하는 작은 모델 집합입니다. 이를 집합 커버 문제의 변형으로 공식화하고 기본 집합 시스템의 VC 차원을 사용하여 보장치를 제공합니다. Arena 데이터에서 우리의 알고리즘은 전역 랭킹에 비해 96% 이상의 투표와 모던한 $λ$ 에서 5 개의 구별된 BT 랭킹을 복원하며, 전역 랭킹은 21% 커버를 제공합니다. 또한 전역 랭킹의 상위 6 개 LLM 보다 2 배 많은 투표를 커버하는 6 개 LLM 의 포트폴리오도 제공합니다. 우리는 COMPAS 데이터셋의 분류 문제에서 공정성 규제된 분류 모델 앙상블을 사용하여 포트폴리오를 구성하고, 이러한 포트폴리오가 데이터의 맹점을 탐지할 수 있음을 보여주며, 이는 정책 입안자에게 독립적인 관심사가 될 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous

요약

핵심 포인트

댓글