arXiv논문2026. 06. 03. 11:04

LLM Reranker는 자신의 랭킹 성능을 예측할 수 있는가?

요약

LLM Reranker가 스스로 랭킹 품질을 예측할 수 있는지 연구한 논문입니다. 훈련이 필요 없는 자기 일관성 방식과 훈련 기반의 Verb-Num, Verb-List 방식을 비교 분석했습니다.

핵심 포인트

LLM 재순위화기 내부의 쿼리 성능 예측(QPP) 가능성 탐구
자기 일관성 방식이 기존 SOTA 방식과 경쟁 가능한 수준임을 확인
언어화된 신뢰도는 과잉 확신 경향이 있어 보정이 필요함
Verb-Num 및 Verb-List를 통한 보정된 품질 추정 방법 제안

검색(Retrieval)의 효과는 쿼리(Query)에 따라 크게 달라지며, 이로 인해 관련성 판단(Relevance judgments)을 내리기 전에 랭킹 품질을 추정하는 것이 중요합니다. 쿼리 성능 예측 (Query performance prediction, QPP)은 이러한 필요성을 다루지만, 기존의 대부분의 방법은 검색 또는 재순위화(Reranking) 이후에 외부 예측기(External predictors)에 의존합니다. 본 논문에서 우리는 extit{재순위화기 내부 QPP (reranker-internal QPP)}를 연구합니다: LLM 재순위화기(LLM reranker)가 방금 생성한 랭킹의 품질을 스스로 추정할 수 있을까요? 우리는 훈련이 필요 없는(Training-free) 방식과 훈련 기반(Training-based) 접근 방식 모두를 조사합니다. 훈련이 필요 없는 추정을 위해, 우리는 샘플링된 랭킹 전반에 걸친 지표별 자기 일관성(Self-consistency)과 재순위화기가 직접 생성한 언어화된 신뢰도(Verbalized confidence)를 검토합니다. 네 가지 LLM을 사용하여 TREC Deep Learning 2019--2022 데이터셋으로 실험한 결과, 자기 일관성은 최신 기술 (State-of-the-art, SOTA) 방식과 경쟁할 만한 수준이며 거의 모든 설정에서 더 잘 보정(Calibrated)되어 있는 반면, 직접적인 언어화된 신뢰도는 심각하게 과잉 확신(Overconfident)하는 것으로 나타났습니다. 언어화된 신뢰도를 개선하기 위해, 우리는 LLM 재순위화기가 단 몇 개의 추가 출력 토큰만으로 보정된 랭킹 품질 추정치를 생성할 수 있도록 하는 두 가지 지도 학습(Supervised) 방법인 Verb-Num과 Verb-List를 제안합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM Reranker는 자신의 랭킹 성능을 예측할 수 있는가?

요약

핵심 포인트

댓글