올바른 비교 질문하기: LLM 판사(Judge)를 활용한 편향 인지 베이지안 능동형 Top-$k$ 순위 지정

대규모 언어 모델(LLMs)은 응답의 순위를 매기거나, 모델을 선택하거나, 논문을 분류하기 위해 후보 출력물들을 쌍별(pairwise)로 비교하는 저렴하고 확장 가능한 판사(judge)로 점점 더 많이 사용되고 있습니다. 그러나 LLM 판사는 노이즈가 많고 체계적인 편향(bias)을 보입니다. 즉, 장황하거나 형식이 잘 갖춰진 답변을 선호하고 위치 효과(position effects)를 나타내기 때문에, 단순히 그들의 투표를 집계하는 것만으로는 실제 품질이 아닌 표현력(presentation)의 순위를 복원하게 됩니다. 우리는 고정된 비교 예산 하에서 $\topk$ 항목을 식별한다는 실질적인 목표를 연구하며, 두 가지 기여를 합니다. 첫째, 우리는 판사별로 명시적인 편향 공변량(bias covariates, 예: 장황함, 위치)을 포함하여 잠재적 품질(latent quality)에 대한 베이지안 추론(Bayesian inference)으로 판정 과정을 구성하며, 데이터가 특정 판사가 실제로 어떤 편향을 보이는지 결정할 수 있도록 수축 사전 확률(shrinkage prior)로 정규화합니다. 둘째, 전체 순위가 아닌 $\topk$ 멤버십(membership)에 대한 불확실성을 최대화하여 줄일 수 있도록 다음 비교 대상을 선택하는 $\topk$-인지 능동형 획득 규칙($\topk$-aware active acquisition rule)을 도입합니다. 정답 품질(ground-truth quality)이 알려진 통제된 벤치마크에서 오픈 소스 및 독점 모델 제품군(Llama, Qwen, Phi-4, GPT-4o-mini/5.1/5.5, Gemini, DeepSeek, Claude Haiku/Sonnet/Opus)을 아우르는 16개의 실제 LLM을 통해 평가한 결과, 단순 집계 방식은 예산에 관계없이 편향된 판사들에 대해 잘못된 $\topk$에서 정체되는 반면, 우리의 편향 인지 모델은 이를 복원해 냈습니다. 또한 $\topk$-인지 획득 방식은 라운드 로빈(round-robin)이나 전역 불확실성(D-optimal) 규칙보다 훨씬 적은 비교 횟수로 이 한계치에 도달했습니다. 편향은 실재하지만 이질적이며 능력에 따라 달라집니다. 저렴한 모델 및 중간 단계의 판사들은 강력한 장황함 편향(verbosity bias)을 가지고 있으며 우리 모델은 이를 교정합니다(재현율(recall)을 $\sim$$0.5$--$0.6$에서 $0.84$--$1.0$으로 향상). 반면 우리가 테스트한 최첨단(frontier) 판사들은 편향을 거의 보이지 않고 이미 정확하게 순위를 매기므로, 그곳에서는 편향 인지 모델링의 변화가 크지 않았습니다.

Insights

올바른 비교 질문하기: LLM 판사(Judge)를 활용한 편향 인지 베이지안 능동형 Top-$k$ 순위 지정

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때