본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 11:51

정확함이 더 낫다: 쌍체 비교(Pairwise Comparisons)를 통한 정확도 순위 도출

요약

본 연구는 쌍체 비교(Pairwise Comparisons)와 Elo 점수 방식이 생성 모델의 정확도 순위와 강력하게 일치함을 입증합니다. 벤치마크를 자유 형식 평가로 변환했을 때 정확도와 0.9 이상의 높은 상관관계를 보이며, 판사 편향의 영향을 최소화할 수 있음을 확인했습니다.

핵심 포인트

  • 쌍체 비교 기반 Elo 순위와 정답 기반 정확도 순위 간 높은 상관관계 확인
  • 판사가 약할 때 직접 평가보다 쌍체 비교가 더 나은 성능을 보임
  • 스타일 및 판사 편향이 모델 순위에 미치는 영향은 미미함
  • 최종 답변 이후의 반복(echo)이 판사 선호도의 주요 원인으로 발견됨

쌍체 비교(Pairwise comparisons)와 Elo와 같은 집계 방법(aggregation methods)의 결합은 생성 모델(generative models)을 평가하는 데 핵심적인 역할을 해왔으나, 표면적인 스타일 단서(stylistic cues)에 보상을 주거나 판사 편향(judge biases)을 나타낼 수 있다는 우려가 남아 있습니다. 보다 긍정적인 측면에서, 본 연구는 비교 가능한 정답(ground-truth)이 존재하는 경우, 쌍체 비교를 통한 모델 순위가 정답 기반의 정확도 순위(accuracy rankings)와 강력하게 일치함을 보여줍니다. 다섯 가지 잘 알려진 벤치마크(benchmarks)를 자유 형식의 생성 평가(free-form generative evaluations)로 변환함으로써, 우리는 Elo 순위가 정확도 순위와 0.9 이상의 스피어만 상관계수(Spearman correlation)를 달성하며, 판사(judge)가 약할 때 직접 평가(direct evaluation)보다 실질적으로 더 나은 성능을 보임을 확인했습니다. 또한, 대부분의 판단이 두 후보 답변이 모두 정답인 경우(또는 모두 오답인 경우)에 발생함에도 불구하고, 스타일과 판사 편향은 모델 순위에 미미한 영향만을 미쳤습니다. 이러한 쌍(pairs)에서 우리는 최종 답변 이후의 반복(echo)이 판사 선호도의 인과적 동인(causal driver)임을 발견했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0