arXiv논문2026. 06. 23. 12:18

BabelJudge: 언어 및 에이전트 궤적 전반에 걸친 LLM-as-a-Judge 신뢰성 측정

요약

LLM-as-a-Judge의 체계적 편향을 측정하고 감사하는 오픈 소스 프레임워크인 BabelJudge를 소개합니다. 위치, 장황함, 교차 언어 저하 등 네 가지 주요 실패 모드를 측정하며, 에이전트 평가를 위한 궤적 수준의 섭동 분석 기능도 포함합니다.

핵심 포인트

LLM 심판의 위치, 장황함, 교차 언어 편향을 측정하는 벤치마크 제공
어노테이션 비용을 줄이기 위한 '저하에 의한 골드 라벨링' 기법 제안
저자원 언어에서 LLM 심판의 신뢰성이 급격히 저하됨을 입증
에이전트 평가를 위한 도구 정확도 및 환각 탐지 지표 확장
11개 심판 백엔드를 지원하는 Python 패키지로 출시

LLM-as-a-judge(심판으로서의 LLM)는 NLP 파이프라인에서 확장 가능한 평가를 위한 지배적인 접근 방식이 되었으나, 심판 자체는 원시 정확도(raw accuracy)가 숨기고 있는 체계적인 편향(systematic biases)을 가지고 있습니다. 즉, 심판은 A 슬롯에 배치된 응답을 선호하고(위치 편향 (position bias)), 품질과 관계없이 더 긴 응답을 선호하며(장황함 편향 (verbosity bias)), 저자원 언어(lower-resource languages)에서는 신뢰성이 급격히 저하됩니다. 우리는 인간의 선호도 라벨 없이도 어떤 심판 모델에 대해서든 네 가지 실패 모드인 위치 편향 (position bias), 장황함 편향 (verbosity bias), 순서 불일치 (order inconsistency), 교차 언어 저하 (cross-lingual degradation)를 측정하는 오픈 소스 벤치마크 및 신뢰성 감사 프레임워크인 BabelJudge를 소개합니다. 핵심 통찰은 '저하에 의한 골드 라벨링 (gold-labelling by degradation)'입니다. 고품질의 참조 응답에서 시작하여 통제된 섭동(perturbation)을 적용하면, 구성상 골드 라벨(gold label)을 알 수 있는 쌍체 항목(pairwise item)을 생성할 수 있어 어노테이션 비용을 제거할 수 있습니다. 우리는 영어, 힌디어, 아랍어, 스와힐리어에 대해 Qwen2.5-7B-Instruct-4bit를 평가하였으며, 우리의 복합 편향 페널티 신뢰성 점수(composite bias-penalised reliability score)가 힌디어의 0.714에서 스와힐리어의 0.550으로 떨어진다는 것을 발견했습니다. 이는 원시 정확도(0.835 대 0.660)가 과소평가하는 격차입니다. 스와힐리어의 순서 불일치(order consistency)는 0.480으로 붕괴되었는데, 이는 슬롯 순서가 바뀔 때 심판의 판결이 거의 무작위(near-random)에 가깝다는 것을 의미하며, 이는 정확도만으로는 보이지 않는 실패 모드입니다. 우리는 또한 9가지 궤적 수준의 섭동(인자 오염 (argument corruption), 도구 교체 (tool swaps), 환각 호출 (hallucinated calls), 누락된 단계 (missing steps))과 3가지 새로운 지표인 도구 정확도 (tool accuracy), 환각 탐지율 (hallucination detection rate), 궤적 길이 편향 (trajectory-length bias)을 통해 이 프레임워크를 에이전트 평가 (agentic evaluation)로 확장합니다. BabelJudge는 11개의 심판 백엔드를 지원하는 Python 패키지로 출시되었습니다. 코드: https://github.com/Shreyaskc/BabelJudge

AI 자동 생성 콘텐츠

원문 바로가기

BabelJudge: 언어 및 에이전트 궤적 전반에 걸친 LLM-as-a-Judge 신뢰성 측정

요약

핵심 포인트

댓글