판단자는 영어를 선호하는가? LLM-as-a-Judge의 언어 전환 불변성 평가
요약
LLM-as-a-Judge의 언어 전환 불변성을 평가하기 위한 새로운 메타 평가 프로토콜인 Judge-LS를 제안합니다. 실험 결과, 언어 전환 시 선호도 뒤집힘 현상이 발생하며 영어에서 가장 높은 정확도를 보임을 확인했습니다.
핵심 포인트
- LLM 판단자의 언어 전환에 따른 신뢰성 문제 분석
- Judge-LS: 경량 메타 평가 프로토콜 제안
- 중국어 및 언어 전환 시 영어 대비 10.7~14.4%의 선호도 뒤집힘 발생
- 번역적으로 동등한 경우 체계적인 영어 선호도는 관찰되지 않음
- 추가 학습 없이 API 호출만으로 실행 가능한 평가 방식
대규모 언어 모델 (LLMs)은 이제 개방형 지시 이행 (instruction-following) 평가를 위한 자동 판단자 (automatic judges)로 널리 사용되고 있습니다. 이러한 관행은 편리하고 확장 가능하며, 참조 기반 지표 (reference-based metrics)보다 종종 의미론적으로 더 인지 능력이 뛰어나지만, 새로운 신뢰성 문제를 야기합니다. 즉, 판단자가 답변의 품질을 평가하는 것인지, 아니면 비교가 제시되는 언어에 반응하는 것인지에 대한 문제입니다. 우리는 LLMBar 응답 쌍 항목을 영어, 중국어, 그리고 중국어-영어 언어 전환 변체로 변환하는 경량 메타 평가 프로토콜인 Judge-LS를 제안합니다. 신뢰할 수 있는 판단자는 레이블을 보존하는 언어 변환 하에서도 선호도를 유지해야 하며, 두 답변이 번역적으로 동등할 때 특정 언어를 선호해서는 안 됩니다. 우리는 419개 항목의 전체 LLMBar 벤치마크에서 API 접근이 가능한 4개의 판단자를 평가하여 13,408개의 성공적인 쌍별 판단 (pairwise judgments)을 생성했습니다. 모델 전반에 걸쳐, 중국어 및 언어 전환 제시 방식은 영어 대비 10.7~14.4%의 선호도 뒤집힘 (preference flips)을 유도하며, 모든 판단자는 영어에서 가장 높은 정확도를 달성했습니다. 그러나 번역적으로 동등한 무승부 프로브 (tie probes)는 체계적인 영어 선호도를 드러내지 않았습니다. 대부분의 프로브는 무승부로 판단되었으며, 무승부가 아닌 결정은 중국어를 더 선호하는 경우가 많았습니다. 우리는 신뢰 구간 (confidence intervals), 대응 표본 유의성 검정 (paired significance tests), 그리고 기계적으로 식별된 고위험 변체를 제외하는 민감도 분석을 포함한 자동 변환 감사 (automatic transformation audit)를 추가했습니다. 이 실험은 모델 학습을 필요로 하지 않으며, API 호출만을 사용하고, 적절한 로컬 하드웨어에서도 실행 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기