본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 05:40

NMT 및 요약 모델의 환각 탐지를 위한 계층별 최적 운송 (Layer-Resolved Optimal Transport)

요약

최적 운송(Optimal Transport) 이론을 활용하여 NMT 및 요약 모델의 환각을 탐지하는 계층별 분석 방법을 제안합니다. 디코더 계층별 교차 주의 집중 분포를 분석하여 환각 유형을 식별하고, 모델의 해석 가능성을 높이는 연구입니다.

핵심 포인트

  • 최적 운송(OT)을 통해 지도 학습 없이 NMT 환각 탐지 가능
  • 디코더 계층별로 환각 탐지에 특화된 상호 보완적 지표 확인
  • 요약 모델의 충실도 탐지 시 농도 기반 OT의 구조적 한계 발견
  • 교차 주의 집중 기반 OT는 소스 이탈형 환각 탐지에 효과적

최적 운송 (Optimal Transport, OT)은 어떠한 지도 학습 없이도 교차 주의 집중 (cross-attention) 분포와 참조 분포 사이의 기하학적 거리를 측정함으로써 신경망 기계 번역 (NMT)에서의 환각 (hallucination)을 탐지할 수 있음이 입증되었습니다. 본 연구에서는 이 분석을 Fairseq DE-EN 모델 ($N=3,416$)의 6개 디코더 계층 전체로 확장하여, Wass-to-Unif와 Wass-to-Data가 환각 유형에 따라 특화된 상호 보완적인 탐지기임을 보여줍니다. 또한, 탐지는 L1--L4 계층에 집중되어 있으며, L5는 더 미세한 유형에 대해 반-예측적 (anti-predictive)인 특성을 보임을 확인했습니다. 아울러 환각이 발생한 번역문은 첫 번째 디코딩 단계부터 올바른 번역문에서 나타나는 탐색적 주의 집중 (exploratory attention) 단계가 결여되어 있음을 밝혀냈습니다. 나아가 우리는 이러한 기하학적 신호가 요약 모델의 충실도 (faithfulness) 탐지로 전이될 수 있는지 평가했습니다. AggreFact ($N=1,116$) 데이터셋에 대한 우리의 비지도 OT 탐지기는 CNN/XSum에서 각각 $57.2%/57.6%$의 균형 정확도 (balanced accuracy)를 달성하였으며, 이는 우연 수준보다는 높지만 지도 학습 기반인 MiniCheck-Flan-T5-L($69.9%/74.3%$)보다는 상당히 낮은 수치입니다. 이러한 격차는 원리적인 이유가 있습니다. NMT의 환각과 달리, 충실하지 못한 요약문은 소스 토큰에 올바르게 주의를 기울이면서도 그 내용을 잘못 표현할 수 있는데, 이러한 실패 모드는 구조적으로 농도 기반 (concentration-based) OT 지표로는 포착할 수 없습니다. T5-base에 대한 구조적 실험을 통해 깊이에 따른 일관된 디코더 조직을 확인하였으며, Layer 3에서 정점의 농도가 나타나고 Layer 12가 생성 품질에 가장 결정적임을 확인했습니다. 종합적으로, 본 결과는 교차 주의 집중 (cross-attention) 상의 OT가 실패 모드가 소스 이탈 (source disengagement)인 경우 신뢰할 수 있는 탐지기임을 입증하며, 작업에 관계없이 원리적인 해석 가능성 (interpretability) 도구로서 기능하지만, 충실도 실패가 주의 집중 이후 단계에서 발생하는 경우에는 근본적인 한계가 있음을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0