arXiv논문2026. 05. 28. 12:09

신뢰할 수 있는 다국어 LLM-as-a-Judge를 향하여: 실증적 연구

요약

본 연구는 다국어 환경에서 LLM-as-a-Judge의 신뢰성을 높이기 위한 전략을 탐구합니다. 영어, 스페인어, 바스크어를 대상으로 데이터 가용성에 따른 미세 조정 효과와 모델 크기 간의 트레이드오프를 체계적으로 분석했습니다.

핵심 포인트

도메인 내 데이터가 있다면 작은 모델의 미세 조정이 폐쇄형 모델만큼 효과적임
도메인 외 데이터 사용 시 미세 조정은 오히려 성능에 부정적 영향을 줄 수 있음
도메인 외 설정에서는 대형 모델의 제로샷 평가가 더 효과적임
저자원 언어 평가를 위한 실질적인 다국어 평가 파이프라인 지침 제공

대규모 언어 모델 (LLMs)은 생성된 텍스트의 자동 평가를 위해 점점 더 많이 사용되고 있지만, 대부분의 이전 연구는 영어에 집중되어 있습니다. 다국어 평가에 대한 수요가 증가하고 있음에도 불구하고, LLM 기반 평가기를 다국어 환경으로 확장하는 것은 여전히 도전적인 과제이며, 특히 저자원 언어 (low-resource languages) 및 도메인 내 데이터 (in-domain data)가 부족한 시나리오에서 더욱 그러합니다. 본 연구는 미세 조정 (fine-tuning)을 위한 도메인 내 데이터의 가용 여부를 고려하여, 다국어 LLM-as-a-judge를 개발하기 위한 몇 가지 전략을 탐구합니다. 우리는 고자원, 중자원, 저자원 언어를 대표하는 영어, 스페인어, 바스크어를 대상으로 지시문 번역 (instruction translation), 단일 언어 대 다국어 감독 (monolingual versus multilingual supervision), 그리고 모델 크기를 고려하여 체계적으로 분석합니다. 평가를 위해, 우리는 두 개의 기존 메타 평가 (meta-evaluation) 데이터셋을 바스크어와 스페인어로 확장했습니다. 우리의 결과는 주요한 트레이드오프 (trade-offs)를 보여줍니다: 도메인 내 데이터가 사용 가능한 경우, 미세 조정된 더 작은 모델들이 폐쇄형 모델 (proprietary models)에 필적하는 성능을 달성할 수 있는 반면, 도메인 외 (out-of-domain) 설정에서는 더 큰 모델을 사용한 제로샷 (zero-shot) 평가가 더 효과적임이 입증되었습니다. 또한 우리는 도메인 외 데이터로 미세 조정을 하는 것이 모델 성능에 부정적인 영향을 미칠 수 있음을 관찰했습니다. 이러한 발견은 효율적이고 신뢰할 수 있는 다국어 평가 파이프라인을 구축하기 위한 실질적인 지침을 제공합니다. 데이터와 코드는 hitz-zentroa/mJudge에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

신뢰할 수 있는 다국어 LLM-as-a-Judge를 향하여: 실증적 연구

요약

핵심 포인트

댓글