쌍체 LLM 평가를 위한 해상도 진단 (Resolution Diagnostics for Paired LLM Evaluation)
요약
LLM 리더보드의 쌍체 순위 평가가 통계적 해상도 목표를 충족하지 못하는 문제를 분석한 연구입니다. 기존의 Cohen-h 지름길 방식이 근접 비교 영역에서 오류를 범하고 있음을 지적하며, 새로운 진단 지표인 쌍당 해상도 비율(q)을 제안합니다.
핵심 포인트
- Open LLM Leaderboard 및 MMLU-Pro의 많은 순위 쌍이 통계적으로 미해결 상태임
- 기존 Cohen-h 기반 계산 방식이 근접 비교 시 필요한 표본 수(N*)를 약 2배 오차로 예측함
- 주요 통계 도구(G*Power, R pwr 등)가 잘못된 계산 방식을 그대로 상속받고 있음
- 쌍당 해상도 비율(q)을 통해 평가 설계의 유효성을 진단할 수 있음
두 개의 공개 LLM 리더보드(leaderboards)를 조사한 결과, 많은 쌍체 순위(pairwise rankings)가 실제 쌍체 평가 설계(paired evaluation design) 하에서 전통적인 쌍체 검정(paired-test) 해상도 목표를 충족하지 못하는 것으로 나타났습니다. Open LLM Leaderboard v1의 40개 쌍체 비교 중 11개, 그리고 MMLU-Pro의 상위 10위 인접 순위 쌍(adjacent-rank pairs) 9개 중 4개가 (alpha, 1-beta) = (0.05, 0.8) 조건에서 해상되지(unresolved) 않았습니다. 실제 주제 수준 클러스터링(subject-level clustering)을 적용할 경우 MMLU-Pro의 미해결 수치는 6/9로 증가하며, 카테고리 부트스트랩(category-bootstrap) 재표본 추출의 99.9% 상황에서도 9개 중 5~6개 수준을 유지합니다. 본 연구에서는 쌍체 LLM 평가를 가설 검정(hypothesis-testing) 문제로 정의하고, 유의 수준(level-alpha)과 검정력(power-(1-beta)) 검정을 역산하여, 주요 진단 지표로서 쌍당 해상도 비율(per-pair resolution ratio) q = N/N를 보고합니다. 명시적인 2차 상수(second-order constant)를 포함한 급격한 소효과(small-effect) 확장을 통해, 널리 사용되는 비쌍체 Cohen-h-plus-(1-rho) 지름길 방식이 근접 비교(close-comparison) 영역에서 올바른 N로부터 약 2배 정도 벗어난다는 것을 보여줍니다. 이러한 결함은 사용자가 각 군(per-arm)의 출력값에 (1-rho)를 사후 곱할 때, 시중에 나와 있는 5개의 계산기 중 3개(Cohen 1988, G*Power, R pwr)가 조용히 그대로 상속받는 문제입니다. 미해결 쌍(unresolved-pair) 패턴은 다중성 교정(multiplicity correction) 및 상시 유효 순차 검정(anytime-valid sequential testing) 하에서도 유지됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기