arXiv논문2026. 06. 01. 12:37

BenHalluEval: 벵골어를 사용하는 대규모 언어 모델(LLMs)을 위한 다중 작업 환각 평가 프레임워크

요약

벵골어 LLM의 환각 현상을 체계적으로 평가하기 위한 BenHalluEval 프레임워크를 제안합니다. GQA, 요약, 추론 등 4가지 작업을 포함하며, 이중 트랙 프로토콜과 보정 지표인 BenHalluScore를 통해 모델의 환각 탐지 능력을 정밀하게 측정합니다.

핵심 포인트

벵골어 특화 다중 작업 환각 평가 프레임워크 BenHalluEval 제안
이중 트랙 프로토콜(Track A, B)을 통한 정밀한 환각 측정
응답 편향을 방지하기 위한 보정 지표 BenHalluScore 개발
CoT 프롬프팅이 환각 식별 능력을 일관되게 향상시키지 못함을 확인

벵골어(Bengali)가 세계에서 여섯 번째로 많이 사용되는 언어임에도 불구하고, 이전에는 벵골어를 사용하는 대규모 언어 모델(LLMs)의 환각(hallucination)을 체계적으로 평가한 연구가 없었습니다. 우리는 생성적 질의응답(Generative Question Answering, GQA), 벵골어-영어 코드 혼합 질의응답(Bangla-English Code-Mixed QA), 요약(Summarization), 그리고 추론(Reasoning)의 네 가지 작업을 다루는 벵골어용 세밀한 환각 평가 프레임워크인 BenHalluEval을 소개합니다. 우리는 기존의 세 가지 벵골어 데이터셋에서 추출한 12가지 작업별 환각 유형에 대해 GPT-5.4를 사용하여 12,000개의 환각 후보(hallucinated candidates)를 구축하였으며, 추론 중심, 다국어, 벵골어 중심 범주를 아우르는 7개의 LLM을 평가했습니다. 평가는 정답 인스턴스에 대한 거짓 양성률(false-positive rate)을 독립적으로 측정하는 트랙 A(Track A)와 환각 후보에 대한 환각 탐지율(hallucination detection rate)을 측정하는 트랙 B(Track B)의 이중 트랙 프로토콜 하에 진행되었습니다. 두 가지 실패 모드 모두에 대해 공동으로 페널티를 부여하고 균일한 응답 편향(uniform response bias)으로 인한 점수 부풀리기를 방지하기 위해, 우리는 모델과 작업에 따라 7.72%에서 55.42% 사이의 범위를 갖는 이중 트랙 보정 지표인 BenHalluScore를 제안하며, 이를 통해 환각 보정(hallucination calibration)에서 상당한 차이가 있음을 밝혀냈습니다. 완화 전략(mitigation strategy)으로 적용된 생각의 사슬(Chain-of-thought) 프롬프팅은 응답 분포를 변화시키지만, 환각 식별 능력을 일관되게 향상시키지는 못했습니다. BenHalluEval은 벵골어를 위한 최초의 전용 환각 벤치마크를 구축하며, 저자원 언어(low-resource language) 환경에서 단일 트랙 및 프롬프팅 전용 평가 방식의 부적절함을 강조합니다. 데이터셋과 코드는 https://anonymous.4open.science/r/BanglaHalluEval-EB77 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

BenHalluEval: 벵골어를 사용하는 대규모 언어 모델(LLMs)을 위한 다중 작업 환각 평가 프레임워크

요약

핵심 포인트

댓글