arXiv논문2026. 05. 07. 12:46

The First Token Knows: Single-Decode Confidence for Hallucination Detection

요약

본 논문은 환각 탐지(hallucination detection)를 위해 여러 번의 디코딩을 필요로 하는 기존 방법들(Self-consistency, Semantic self-consistency)의 한계를 극복하는 새로운 접근 방식인 'phi_first'를 제안합니다. phi_first는 단일 그리디 디코딩 과정에서 첫 번째 토큰의 top-K 로짓 엔트로피를 사용하여 모델의 초기 신뢰도를 측정하며, 폐서적 사실 질문 답변(closed-book factual QA) 태스크에서 기존 방법들과 동등하거나 더 높은 성능을 보였습니다. 이는 다중 샘플링 기반 불확실성 정보가 이미 첫 번째 토큰 분포에 상당 부분 포함되어 있음을 시사합니다.

핵심 포인트

phi_first는 단일 그리디 디코딩의 첫 번째 토큰 로짓 엔트로피를 사용하여 환각 탐지 신뢰도를 측정하는 저비용 방법이다.
폐서적 사실 QA 벤치마크에서 phi_first는 평균 AUROC 0.820을 달성하며, 기존의 Semantic self-consistency(0.793)보다 높은 성능을 보였다.
phi_first가 보여주는 우수한 성능은 다중 샘플링 기반 불확실성 정보가 모델 초기 토큰 분포에 이미 상당 부분 담겨 있음을 시사한다.
이 방법은 복잡한 샘플링 과정 없이도 강력하고 효율적인 환각 탐지 베이스라인을 제공한다.

Self-consistency 는 질문의 여러 샘플링 답변을 생성하고 동의도를 측정하여 환각 (hallucination) 을 탐지하지만, 이는 반복적인 디코딩이 필요하며 단어 변이에 민감할 수 있습니다. Semantic self-consistency 는 자연어 추론 (NLI) 을 사용하여 의미로 샘플링 답변을 클러스터링함으로써 이를 개선하지만, 샘플링 비용과 외부 추론 오버헤드를 추가합니다. 본 논문은 단일 그리디 디코딩의 첫 번째 콘텐츠 담보 토큰의 top-K logits 의 정규화된 엔트로피에서 계산된 phi_first (first-token confidence) 가 폐서적 (closed-book) 단답 사실 질문 답변 (factual question answering) 에서 semantic self-consistency 와 동등하거나 약간 더 높은 성능을 보인다는 것을 보여줍니다. 세 가지 7-8B 인스트럭션 튜닝 모델과 두 개의 벤치마크를 통해 phi_first 는 평균 AUROC 를 0.820 을 달성했으며, 이는 semantic agreement 의 0.793 과 표준 표면 형식 (surface-form) self-consistency 의 0.791 보다 높습니다. 서브서머션 테스트 (subsumption test) 는 phi_first 가 semantic agreement 와 중등도에서 강하게 상관관계를 보인다는 것을 보여주며, 두 신호를 결합하면 phi_first 단독보다 AUROC 개선이 작을 뿐임을 보여줍니다. 이러한 결과는 다중 샘플링 동의도가 모델의 초기 토큰 분포에 이미 많은 불확실성 정보를 담고 있음을 시사합니다. 우리는 phi_first 를 샘플링 기반 불확실성 추정을 호출하기 전에 기본으로 보고할 저비용 베이스라인 (low-cost baseline) 이라고 주장합니다.

AI 자동 생성 콘텐츠

원문 바로가기

The First Token Knows: Single-Decode Confidence for Hallucination Detection

요약

핵심 포인트

댓글