LLM 환각(Hallucination)에 대한 불확실성 추정기(Uncertainty Estimators)의 관련성 평가
요약
LLM의 환각 현상과 불확실성 추정(UE) 사이의 상관관계를 체계적으로 분석한 연구입니다. 다양한 추정 기법을 활용해 환각 유형별 유효성을 검증한 결과, 불확실성이 환각의 직접적인 지표로 사용되기에는 한계가 있음을 밝혀냈습니다.
핵심 포인트
- 불확실성 추정기와 환각 사이의 관계가 환각 유형에 따라 가변적임을 입증
- 정보 이론적, 샘플링 기반, 성찰적 추정기 등 다양한 방법론 비교
- 내재적 및 외재적 환각 설정 모두에서 불확실성의 신뢰도 평가
- 불확실성을 환각의 직접적인 신호로 사용하는 것에 대한 비판적 시각 제시
대규모 언어 모델(LLMs)은 환각(Hallucinations), 즉 입력 데이터나 학습 데이터에 의해 뒷받침되지 않는 진술을 생성하는 경향이 있으며, 이는 신뢰할 수 있는 배포를 저해합니다. 이와 병행하여, 모델의 신뢰도(Confidence)를 정량화하기 위한 수많은 불확실성 추정(Uncertainty Estimation, UE) 방법들이 제안되었으며, 이는 종종 모델 실패의 대리 지표(Proxies)로 암묵적으로 취급되어 왔습니다. 그러나 불확실성과 환각 사이의 관계는 여전히 충분히 규명되지 않은 상태입니다. 본 연구에서는 LLM의 불확실성 추정기와 환각 사이의 연관성에 대한 체계적인 실증적 연구를 제시합니다. 우리는 이러한 연관성을 가정하는 대신, 그것이 언제 그리고 어느 정도까지 유효한지를 직접 평가합니다. 우리는 정보 이론적(Information-theoretic), 샘플링 기반(Sampling-based), 성찰적(Reflexive) 추정기를 포함한 다양한 불확실성 추정기 세트를 고려하며, 환각 설정 전반에 걸친 이들의 동작을 조사합니다. 우리의 실험은 RAGTruth와 HalluLens를 포함한 네 가지 상호 보완적인 벤치마크를 사용하여, 내재적 환각(Intrinsic hallucinations, 입력 충실도 위반)과 외재적 환각(Extrinsic hallucinations, 학습 데이터 대비 근거 없는 주장)을 모두 다룹니다. 연구 결과, 이러한 연관성은 환각의 유형과 평가 대상인 LLM에 따라 매우 가변적이며 종종 약하게 나타남을 발견했습니다. 이러한 결과는 불확실성을 환각의 직접적인 신호로 사용하는 것에 의문을 제기하며, 불확실성이 언제 실행 가능한 정보(Actionable information)를 제공하는지를 명확히 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기