arXiv논문2026. 06. 15. 03:49

불확실한 판단에서 보정된 순위로: LLM 평가를 위한 Conformal Elo 추정

요약

본 논문은 LLM 평가의 어려움을 다루며, 기존 LLM-as-a-judge 방식이 가진 위치 편향 등의 체계적 오류를 보정하는 방법을 제시합니다. 로컬 및 글로벌 두 가지 수준에서 불확실성을 정량화하여, 대규모 인간 주석 없이도 신뢰성 높은 Elo 추정치와 불확실성 경계를 제공하는 저비용 평가 도구를 개발했습니다.

핵심 포인트

LLM-as-a-judge의 체계적 오류(편향 등)를 보정합니다.
로컬 수준에서 배틀별 불확실성을 추정하여 Elo 정확도를 높였습니다.
글로벌 수준에서는 Conformal 예측으로 LLM-인간 간 불일치를 고려합니다.
대규모 인간 주석 없이도 신뢰성 높은 평가 도구를 제공합니다.

새로운 대규모 언어 모델(LLM)을 평가하는 것은 일반적으로 대규모의 비용이 많이 드는 인간 주석 캠페인을 필요로 합니다. LLM-as-a-judge가 더 저렴한 대안을 제공하지만, 심사위원 점수는 위치 편향(position bias), 자기 선호(self-preference), 또는 비추이성(intransitivity)과 같은 체계적인 오류를 포함하고 있어 결과 순위를 크게 잘못 보정할 수 있습니다. 우리는 이로 인해 발생하는 심사위원-인간 불일치를 두 가지 상보적인 수준에서 정량화합니다. 로컬 수준에서는 하드 레이블 대신 보정된 승리 확률을 전파하여, 심사위원 자신의 점수 차이로부터 배틀별(per-battle) 불확실성을 추정하고 이를 Bradley-Terry 절차에 적용합니다. 이만으로도 Elo 추정 정확도가 극적으로 향상되어, LMArena의 55개 홀드아웃 모델에 걸쳐 평균했을 때 LLM 기반 평점이 인간 기반 평점과 17.9 Elo MAE 내로 근접하게 됩니다. 글로벌 수준에서는 홀드아웃 모델 전반에 걸친 LLM 기반 및 인간 기반 Elo 평점 간의 잔차 격차(residual gap)에 분할 Conformal 예측(split conformal prediction)을 적용하여, 제거 불가능한 LLM-인간 불일치를 고려하는 분포 독립적인 주변 커버리지 보장(distribution-free marginal coverage guarantees)을 갖는 예측 구간을 생성합니다. 이 두 계층은 결합되어 대규모 인간 주석에 접근할 필요 없이 개발자에게 보정된 Elo 추정치와 정직한 불확실성 경계(uncertainty bounds)를 제공하는 저비용 평가 도구를 산출합니다. 재현성을 용이하게 하기 위해, 저희는 코드를 https://github.com/kargibora/SoftElo 에 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

불확실한 판단에서 보정된 순위로: LLM 평가를 위한 Conformal Elo 추정

요약

핵심 포인트

댓글