arXiv논문2026. 06. 18. 11:43

Positive--Unlabeled Learning을 통한 LLM 평가의 정량화 및 감사

요약

LLM-as-a-Judge 시스템의 장황성 편향 문제를 해결하기 위해 Positive-Unlabeled(PU) 학습을 적용한 새로운 평가 프레임워크를 제안합니다. 부분 최적 운송(Partial Optimal Transport) 기법을 통해 인간의 선호도와 일치하도록 편향된 판사를 재학습 없이 교정합니다.

핵심 포인트

LLM 평가 모델의 체계적 편향(장황성 편향 등) 문제 지적
선택적 인간 감독 데이터를 활용한 PU 학습 문제로 공식화
부분 최적 운송 기반의 기하학적 감사 프레임워크 제안
재학습 없이도 인간 선호도와의 정렬 및 강건성 개선 입증

대규모 언어 모델 (LLMs)은 확장 가능한 평가를 위한 판사로서 점점 더 많이 사용되고 있지만, 이러한 LLM-as-a-Judge 시스템은 의미론적 품질과는 무관한 체계적인 편향, 특히 장황성 편향 (verbosity bias)을 보입니다. 한편, 인간의 감독은 비용이 많이 들고 일반적으로 선택적이기 때문에, 신뢰할 수 있는 양성 (positive) 판단은 제공하지만 대부분의 출력물은 라벨이 지정되지 않은 채 품질이 섞여 있을 가능성이 큽니다. 우리는 선택적 인간 감독 하에서의 LLM 평가를 양성-미라벨 (positive--unlabelled) 학습 문제로 공식화하고, 부분 최적 운송 (Partial Optimal Transport)에 기반한 기하학적 감사 프레임워크를 제안합니다. 고정된 임베딩 공간에서 인간이 검증한 소수의 양성 데이터와 미라벨 출력물의 신뢰할 수 있는 하위 집합을 정렬함으로써, 우리의 방법은 인간과 일치하는 선호도를 식별하고 재학습 없이 편향된 판사를 교정합니다. 실험을 통해 인간의 선호도와의 정렬 개선, 표현 편향 (presentation biases)에 대한 강건성 증가, 그리고 해석 가능한 신뢰도 추정치를 입증하였으며, 이는 기존의 LLM-as-a-judge 파이프라인에 대한 확장 가능하고 통계적으로 근거 있는 대안을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Positive--Unlabeled Learning을 통한 LLM 평가의 정량화 및 감사

요약

핵심 포인트

댓글