대형 언어 모델의 환각 감지를 위한 내부 주의 발산 신호를 통한 경량 불확실성 정량화 방법 제안
요약
본 논문은 대형 언어 모델(LLM)의 환각을 감지하기 위한 경량의 단일 패스 불확실성 정량화 방법을 제안합니다. 이 방법은 반복 샘플링이나 외부 모델 없이 주의 행렬(attention matrices)을 활용하여 불확실성을 추정하며, 구체적으로 각 어텐션 헤드의 분포와 균일 참조 분포 간의 KL 발산을 측정합니다. 실험 결과, 이 '주의 발산' 신호는 답변의 정확도를 높은 예측력으로 보여주었으며, 모델의 중간 층과 사실적 토큰에서 불확실성 정보를 제공하는 효율적인 화이트박스 지표임을 입증했습니다.
핵심 포인트
- LLM 환각 감지를 위해 경량화되고 단일 패스로 작동하는 불확실성 정량화 방법론을 제시함.
- 주의 행렬(Attention Matrices)의 KL 발산 측정치를 활용하여 모델의 불확실성을 추정하며, 이는 반복 샘플링이 필요 없음.
- 제안된 '주의 발산' 신호는 다양한 환경에서 답변 정확도를 예측하는 데 높은 성능을 보임.
- 불확실성 정보가 주로 중간 레이어와 명칭 엔티티/숫자와 같은 사실적 토큰에 집중되어 있음을 발견함.
We propose a lightweight and single-pass uncertainty quantification method for detecting hallucinations in Large Language Models. The method uses attention matrices to estimate uncertainty without requiring repeated sampling or external models. Specifically, we measure the Kullback-Leibler divergence between each attention head's distribution and a uniform reference distribution, and use these features in a logistic regression probe. Across multiple datasets, task types, and model families, attention divergence is highly predictive of answer correctness and performs competitively with existing uncertainty estimation methods. We find that this signal is concentrated in middle layers and on factual tokens such as named entities and numbers, suggesting that attention dynamics provides an efficient and interpretable white-box signal of model uncertainty.
대형 언어 모델 (LLM) 의 환각을 감지하기 위해 경량적이고 단일 패스 불확실성 정량화 방법을 제안합니다. 이 방법은 반복적인 샘플링이나 외부 모델을 필요로 하지 않고 주의 행렬 (attention matrices) 을 사용하여 불확실성을 추정합니다. 구체적으로, 각 주의 헤더의 분포와 균일 참조 분포 사이의 Kullback-Leibler 발산 (KL divergence) 을 측정하고, 이러한 특징을 로지스틱 회귀 탐사 (logistic regression probe) 에서 사용합니다. 여러 데이터셋, 작업 유형 및 모델 계열을 대상으로 할 때, 주의 발산은 정답 정확도를 예측하는 데 매우 효과적이며 기존 불확실성 추정 방법과 경쟁적으로 성능을 보입니다. 우리는 이 신호가 중간 층과 사실적인 토큰 (명칭 엔티티와 숫자 등) 에 집중되어 있음을 발견했으며, 이는 주의 역학이 모델의 불확실성에 대해 효율적이고 해석 가능한 화이트박스 (white-box) 신호를 제공함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기