올바른 비교 질문하기: LLM 판사(Judge)를 활용한 편향 인지 베이지안 능동형 Top-$k$ 순위 지정
요약
LLM 판사가 가진 장황함 및 위치 편향 문제를 해결하기 위해 베이지안 추론을 활용한 편향 인지 모델링과 능동형 Top-k 순위 지정 기법을 제안합니다. 실험 결과, 제안된 방식이 기존 집계 방식보다 훨씬 적은 비교 횟수로 정확한 상위 모델을 식별함을 입증했습니다.
핵심 포인트
- LLM 판사의 장황함 및 위치 편향 문제를 베이지안 추론으로 교정
- Top-k 멤버십 불확실성을 줄이는 능동형 획득 규칙 도입
- 저가형 모델의 높은 장황함 편향을 효과적으로 보정하여 재현율 향상
- 기존 방식 대비 훨씬 적은 비교 예산으로 정확한 순위 복원 가능
대규모 언어 모델(LLMs)은 응답의 순위를 매기거나, 모델을 선택하거나, 논문을 분류하기 위해 후보 출력물들을 쌍별(pairwise)로 비교하는 저렴하고 확장 가능한 판사(judge)로 점점 더 많이 사용되고 있습니다. 그러나 LLM 판사는 노이즈가 많고 체계적인 편향(bias)을 보입니다. 즉, 장황하거나 형식이 잘 갖춰진 답변을 선호하고 위치 효과(position effects)를 나타내기 때문에, 단순히 그들의 투표를 집계하는 것만으로는 실제 품질이 아닌 표현력(presentation)의 순위를 복원하게 됩니다. 우리는 고정된 비교 예산 하에서 $\topk$ 항목을 식별한다는 실질적인 목표를 연구하며, 두 가지 기여를 합니다. 첫째, 우리는 판사별로 명시적인 편향 공변량(bias covariates, 예: 장황함, 위치)을 포함하여 잠재적 품질(latent quality)에 대한 베이지안 추론(Bayesian inference)으로 판정 과정을 구성하며, 데이터가 특정 판사가 실제로 어떤 편향을 보이는지 결정할 수 있도록 수축 사전 확률(shrinkage prior)로 정규화합니다. 둘째, 전체 순위가 아닌 $\topk$ 멤버십(membership)에 대한 불확실성을 최대화하여 줄일 수 있도록 다음 비교 대상을 선택하는 $\topk$-인지 능동형 획득 규칙($\topk$-aware active acquisition rule)을 도입합니다. 정답 품질(ground-truth quality)이 알려진 통제된 벤치마크에서 오픈 소스 및 독점 모델 제품군(Llama, Qwen, Phi-4, GPT-4o-mini/5.1/5.5, Gemini, DeepSeek, Claude Haiku/Sonnet/Opus)을 아우르는 16개의 실제 LLM을 통해 평가한 결과, 단순 집계 방식은 예산에 관계없이 편향된 판사들에 대해 잘못된 $\topk$에서 정체되는 반면, 우리의 편향 인지 모델은 이를 복원해 냈습니다. 또한 $\topk$-인지 획득 방식은 라운드 로빈(round-robin)이나 전역 불확실성(D-optimal) 규칙보다 훨씬 적은 비교 횟수로 이 한계치에 도달했습니다. 편향은 실재하지만 이질적이며 능력에 따라 달라집니다. 저렴한 모델 및 중간 단계의 판사들은 강력한 장황함 편향(verbosity bias)을 가지고 있으며 우리 모델은 이를 교정합니다(재현율(recall)을 $\sim$$0.5$--$0.6$에서 $0.84$--$1.0$으로 향상). 반면 우리가 테스트한 최첨단(frontier) 판사들은 편향을 거의 보이지 않고 이미 정확하게 순위를 매기므로, 그곳에서는 편향 인지 모델링의 변화가 크지 않았습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기