DECK: LLM 환각(Hallucination)의 일관성(Consistency) x 신뢰도(Confidence) 분류 체계
요약
LLM의 환각을 탐지 가능성 시그니처에 따라 분류하는 새로운 체계인 DECK를 제안합니다. 샘플 간 일관성과 토큰 수준 신뢰도를 축으로 네 가지 행동 양식을 정의하여, 각 오류 유형에 최적화된 측정기 제품군을 매핑합니다.
핵심 포인트
- DECK: 일관성과 신뢰도 기반의 2x2 환각 분류 체계 제안
- 오류 유형별(Drift, Entrenched, Confabulation, Knotted) 최적 측정기 매핑
- 지식 공백 입력 시 모든 출력 수준 불확실성 측정기가 붕괴되는 사각지대 식별
- 모델 규모 및 콘텐츠 특성에 따른 정교한 검증 수행
기존의 환각(Hallucination) 분류 체계는 출력물에서 무엇이 잘못되었는지, 즉 암기된 오개념(memorised misconceptions), 추론 실패(reasoning failures), 유창한 날조(fluent fabrications)에 따라 LLM의 오류를 분류합니다. 이러한 분류 체계는 진단에는 유용하지만, 다음과 같은 다른 질문에는 답할 수 없습니다: '어떤 불확실성 측정기(uncertainty scorer)가 이 오류를 잡아낼 수 있었을까?'
우리는 오류를 측정기 제품군(scorer family)이 읽어낼 수 있는 신호인 '탐지 가능성 시그니처(detectability signature)'에 따라 분류하는 상호 보완적인 분류 체계를 제안합니다. DECK 분류 체계는 샘플 간 일관성(inter-sample consistency)과 토큰 수준의 신뢰도(token-level confidence)를 축으로 하여 2x2 분할을 통해 네 가지 행동 양식(Drift, Entrenched, Confabulation, Knotted)으로 나눕니다. 각 양식은 이를 탐지할 수 있는 특정 측정기 제품군(또는 제품군들)과 매핑됩니다: 블랙박스 일관성 측정기(black-box consistency scorers)는 D와 C에서 신호를 포착하고, 화이트박스 토큰 확률 측정기(white-box token-probability scorers)는 K와 C에서 신호를 포착하며, 독립적인 사전 학습(pretraining)을 거친 LLM-as-a-Judge만이 E를 탐지할 수 있습니다. 셀(Cell) 멤버십은 각 측정기 축에 대한 Youden's J 최적 분할(optimal split)을 통해 운영화됩니다.
우리는 세 가지 모델과 네 가지 데이터셋을 통해 두 가지 방식으로 이 분류 체계를 검증합니다: 측정기 쌍 간의 불일치(scorer-pair disagreement)를 분석하는 것과, 외부 라벨(SelfAware의 답변 불가능 질문, HaluEval의 적대적 질문, PopQA의 엔티티 인기도)이 예측된 DECK 셀에 위치하는지 확인하는 것입니다. 이 과정에서 모델 규모 및 콘텐츠 특이적 이차 셀(secondary-cell) 정교화 작업을 수행했습니다.
나아가 우리는 출력 수준 불확실성 정량화(output-level UQ)의 보편적인 사각지대를 식별했습니다: 생성기가 확신에 차 있고 반복 가능한 날조를 내뱉는 지식 공백(knowledge-gap) 입력값의 경우, 모든 출력 수준 제품군은 구조적으로 붕괴됩니다. Llama-3-8B의 은닉 상태(hidden states)에 대한 선형 프로브(linear probe) 또한 무작위 확률(chance) 수준으로 붕괴되었으며, 이는 이러한 실패가 활성화(activation) 수준에서도 지속될 수 있다는 예비 증거를 제공합니다. 더 풍부한 내부 상태 방법론(UQ heads, 정보 이론적 추정기(information-theoretic estimators))에 대한 테스트는 향후 과제로 남아 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기