arXiv논문2026. 06. 08. 10:33

OpenHalDet: 다양한 생성 시나리오에 걸친 환각 탐지(Hallucination Detection)를 위한 통합 벤치마크

요약

LLM의 신뢰성을 높이기 위한 환각 탐지(Hallucination Detection) 통합 벤치마크인 OpenHalDet을 소개합니다. 기존 평가 방식의 불일치 문제를 해결하기 위해 프롬프트 구성부터 지표 계산까지 표준화된 파이프라인을 제공합니다.

핵심 포인트

다양한 생성 시나리오를 지원하는 통합 벤치마크 OpenHalDet 제안
블랙박스, 그레이박스, 화이트박스 방식의 탐지기 모두 지원
평가 파이프라인 표준화를 통한 재현성 및 비교 가능성 확보
오픈 소스 코드베이스 및 데이터셋 공개를 통한 연구 촉진

환각 탐지(Hallucination detection)는 대규모 언어 모델(LLMs)의 신뢰할 수 있는 배포를 위해 필수적입니다. 그러나 기존의 평가 방식은 두 가지 핵심 과제에 직면해 있습니다: 일관되지 않은 추론 설정(inference configuration) 및 평가, 그리고 다운스트림 도메인과 작업(tasks)의 제한된 범위입니다. 결과적으로, 보고된 탐지기(detector)의 성능은 특정 실험 설정 너머로 비교, 재현 및 일반화하기 어려운 경우가 많습니다. 우리는 다양한 생성 시나리오에 걸친 환각 탐지를 위한 통합 벤치마크인 OpenHalDet을 소개합니다. OpenHalDet은 프롬프트 구성(prompt construction) 및 응답 생성(response generation)부터 진실성 주석(truthfulness annotation), 탐지기 점수 산정(detector scoring), 그리고 지표 계산(metric computation)에 이르기까지 평가 파이프라인을 표준화합니다. 이는 생성된 출력만을 사용하는 블랙박스(black-box) 방식, 확률 기반 신호(probability-based signals)에 의존하는 그레이박스(gray-box) 방식, 그리고 내부 모델 신호(internal model signals)를 활용하는 화이트박스(white-box) 방식을 포함하여, 서로 다른 액세스 설정 하의 이질적인 탐지기 제품군을 지원합니다. 다양한 작업, 모델 및 탐지기를 공유 프레임워크로 가져옴으로써, OpenHalDet은 통제된 비교를 가능하게 하며 LLM 애플리케이션에서 서로 다른 탐지 패러다임이 어떻게 작동하는지에 대한 체계적인 관점을 제공합니다. 우리는 재현 가능한 평가와 환각 탐지 방법의 향후 발전을 촉진하기 위해 OpenHalDet을 개방적이고 확장 가능한 코드베이스로 공개합니다. 코드와 데이터셋은 https://github.com/Nellie179/Hallucination-Detection 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

OpenHalDet: 다양한 생성 시나리오에 걸친 환각 탐지(Hallucination Detection)를 위한 통합 벤치마크

요약

핵심 포인트

댓글