본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 05. 16:38

HalluScan: 지시 따름 LLM 의 환각 탐지 및 완화 평가를 위한 체계적 벤치마크

요약

HalluScan은 대규모 언어 모델(LLMs)의 환각 현상을 체계적으로 탐지하고 완화하기 위한 포괄적인 벤치마크 프레임워크입니다. 이 프레임워크는 6가지 탐지 방법, 4개 오픈웨이트 모델 계열, 그리고 3개 도메인을 포함하는 총 72가지 구성을 평가합니다. 주요 기여로는 인간 전문가 판단과 높은 상관관계를 보이는 새로운 복합 지표인 HalluScore와 비용 효율적인 적응형 탐지 라우팅(ADR) 알고리즘 등이 있습니다.

핵심 포인트

  • HalluScan은 LLM의 환각 현상을 평가하기 위해 72가지 구성(6개 방법, 4개 모델, 3개 도메인)을 포함하는 포괄적인 벤치마크를 제공합니다.
  • 새로운 복합 지표 'HalluScore'는 인간 전문가 판단과 높은 상관관계(r = 0.41)를 보여주어 평가의 신뢰성을 높였습니다.
  • 적응형 탐지 라우팅(ADR) 알고리즘은 AUROC 감소가 미미할 때만 비용을 절감하는 지능적인 방법을 제시합니다.
  • 실험 결과, NLI Verification이 가장 높은 AUROC (0.88)를 달성했으며, 이는 환각 탐지에 효과적임을 입증했습니다.

대규모 언어 모델 (LLMs) 은 다양한 자연어 처리 작업에서 놀라운 능력을 보여주었으나, 사실적으로 잘못된 내용을 생성하거나 제공된 컨텍스트에 충실하지 않거나 사용자 지시와 불일치하는 환각 (hallucinations) 에 여전히 취약합니다. 우리는 6 개의 탐지 방법, 4 개 오픈웨이트 모델 계열, 그리고 3 개의 다양한 도메인을 아우르는 72 가지 구성을 체계적으로 평가하는 종합적인 벤치마크 프레임워크인 HalluScan 을 제시합니다. 우리는 세 가지 핵심 기여를 소개합니다: (1) HalluScore, 인간 전문가 판단과 피어슨 상관관계 r = 0.41 을 달성하는 새로운 복합 지표; (2) 적응형 탐지 라우팅 (Adaptive Detection Routing, ADR), AUROC 감소가 0.1% 일 때만 2.0 배의 비용 절감을 달성하는 지능형 라우팅 알고리즘; 그리고 (3) 도메인 간 환각 오류 유형의 상당한 변이를 드러내는 체계적 오류 연쇄 분해. 우리의 실험은 NLI Verification 이 전체 AUROC 의 0.88 을 가장 높게 달성하고, RAV 가 0.66 의 두 번째로 높은 AUROC 를 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0