arXiv논문2026. 05. 05. 16:36

다국어 환각 평가 벤치마크: MultiWikiQHalluA

요약

기존의 환각(hallucination) 평가는 영어에 편중되어 있어 다국어 적용에 한계가 있습니다. 본 연구는 MultiWikiQA 데이터셋을 활용하여 306개 언어의 합성 환각 데이터셋을 구축하고, 이를 기반으로 유럽 언어 30개에 대한 토큰 단위 환각 분류기를 개발했습니다. 이 분류기를 사용하여 여러 대규모 언어 모델(LLM)의 다국어 환각률을 평가한 결과, 일반적으로 모델 크기가 클수록 성능이 우수하며, 저자본 언어일수록 환각률이 높아지는 경향을 확인했습니다.

핵심 포인트

환각 평가는 영어 중심에서 벗어나 다국어 지원으로 확장되어야 합니다.
MultiWikiQA 데이터셋과 LettuceDetect 프레임워크를 사용하여 306개 언어의 합성 환각 데이터를 생성했습니다.
모델 크기가 클수록 (예: cogito-v1-preview-qwen-32B, llama-70B) 다국어 환경에서 낮은 환각률을 보였습니다.
환각률은 저자본 언어일수록 높아지는 경향이 있으며, 특히 아이슬란드어와 같은 특정 언어에서 두드러집니다.

대부분의 환각 (hallucination) 평가는 영어에 집중되어 있어, 이러한 결과가 저자본 언어로도 적용되는지 명확하지 않습니다. 우리는 모델이 제공된 입력과 다른 내용을 생성하거나 내부적으로 일관성이 없는 경우를 'faithfulness hallucinations'라고 정의하며, 다국어 MultiWikiQA 데이터셋을 활용하여 LettuceDetect 프레임워크를 사용하여 306 개 언어의 합성 환각 데이터셋을 생성했습니다. 이를 바탕으로 30 개의 유럽 언어에 대해 토큰 단위의 환각 분류기를 훈련시켰습니다.

본 연구에서는 영어, 덴마크어, 독일어, 아이슬란드어 등 일부 언어에서 모델 환각을 평가하였습니다. 이러한 분류기를 사용하여 Qwen3-0.6B, Qwen3-14B, Gemma-3-12B-IT, cogito-v1-preview-qwen-32B, 및 cogito-v1-preview-llama-70B 의 환각률을 평가했습니다. 우리의 분류기는 Qwen3-0.6B 의 환각률이 현저히 높음을 보여줍니다 (최대 60% 의 답변이 적어도 하나의 환각을 포함하며, 아이슬란드어에서 가장 높음). 더 큰 모델은 일반적으로 낮은 환각률을 보이며, cogito-v1-preview-qwen-32B 와 cogito-v1-preview-llama-70B 는 대부분의 언어에서 가장 높은 성능을 보입니다. 환각률은 저자본 언어일수록 일관되게 높아지며, 특히 아이슬란드어에서 더 높습니다.

AI 자동 생성 콘텐츠

원문 바로가기

다국어 환각 평가 벤치마크: MultiWikiQHalluA

요약

핵심 포인트

댓글