arXiv논문2026. 06. 15. 05:40

NMT 및 요약 모델의 환각 탐지를 위한 계층별 최적 운송 (Layer-Resolved Optimal Transport)

요약

최적 운송(Optimal Transport) 이론을 활용하여 NMT 및 요약 모델의 환각을 탐지하는 계층별 분석 방법을 제안합니다. 디코더 계층별 교차 주의 집중 분포를 분석하여 환각 유형을 식별하고, 모델의 해석 가능성을 높이는 연구입니다.

핵심 포인트

최적 운송(OT)을 통해 지도 학습 없이 NMT 환각 탐지 가능
디코더 계층별로 환각 탐지에 특화된 상호 보완적 지표 확인
요약 모델의 충실도 탐지 시 농도 기반 OT의 구조적 한계 발견
교차 주의 집중 기반 OT는 소스 이탈형 환각 탐지에 효과적

최적 운송 (Optimal Transport, OT)은 어떠한 지도 학습 없이도 교차 주의 집중 (cross-attention) 분포와 참조 분포 사이의 기하학적 거리를 측정함으로써 신경망 기계 번역 (NMT)에서의 환각 (hallucination)을 탐지할 수 있음이 입증되었습니다. 본 연구에서는 이 분석을 Fairseq DE-EN 모델 ($N=3,416$)의 6개 디코더 계층 전체로 확장하여, Wass-to-Unif와 Wass-to-Data가 환각 유형에 따라 특화된 상호 보완적인 탐지기임을 보여줍니다. 또한, 탐지는 L1--L4 계층에 집중되어 있으며, L5는 더 미세한 유형에 대해 반-예측적 (anti-predictive)인 특성을 보임을 확인했습니다. 아울러 환각이 발생한 번역문은 첫 번째 디코딩 단계부터 올바른 번역문에서 나타나는 탐색적 주의 집중 (exploratory attention) 단계가 결여되어 있음을 밝혀냈습니다. 나아가 우리는 이러한 기하학적 신호가 요약 모델의 충실도 (faithfulness) 탐지로 전이될 수 있는지 평가했습니다. AggreFact ($N=1,116$) 데이터셋에 대한 우리의 비지도 OT 탐지기는 CNN/XSum에서 각각 $57.2%/57.6%$의 균형 정확도 (balanced accuracy)를 달성하였으며, 이는 우연 수준보다는 높지만 지도 학습 기반인 MiniCheck-Flan-T5-L($69.9%/74.3%$)보다는 상당히 낮은 수치입니다. 이러한 격차는 원리적인 이유가 있습니다. NMT의 환각과 달리, 충실하지 못한 요약문은 소스 토큰에 올바르게 주의를 기울이면서도 그 내용을 잘못 표현할 수 있는데, 이러한 실패 모드는 구조적으로 농도 기반 (concentration-based) OT 지표로는 포착할 수 없습니다. T5-base에 대한 구조적 실험을 통해 깊이에 따른 일관된 디코더 조직을 확인하였으며, Layer 3에서 정점의 농도가 나타나고 Layer 12가 생성 품질에 가장 결정적임을 확인했습니다. 종합적으로, 본 결과는 교차 주의 집중 (cross-attention) 상의 OT가 실패 모드가 소스 이탈 (source disengagement)인 경우 신뢰할 수 있는 탐지기임을 입증하며, 작업에 관계없이 원리적인 해석 가능성 (interpretability) 도구로서 기능하지만, 충실도 실패가 주의 집중 이후 단계에서 발생하는 경우에는 근본적인 한계가 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

NMT 및 요약 모델의 환각 탐지를 위한 계층별 최적 운송 (Layer-Resolved Optimal Transport)

요약

핵심 포인트

댓글