본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 07:10

Latent Causal Void: 오정보 탐지를 위한 명시적 누락 맥락 재구성

요약

기존의 자동 오정보 탐지는 기사에 명시적으로 드러나는 거짓 정보를 잘 포착하지만, 배경 지식이나 생략된 맥락을 통해 오도하는 유형의 오정보에는 취약합니다. 본 논문은 이러한 '누락 관련 설정(omission-relevant setting)'에 초점을 맞춰, 대상 문장에 누락된 사실을 명시적으로 재구성하고 이를 그래프 추론 기반의 교차 출처 관계로 활용하는 검색 가이드형 탐지기인 LCV를 제안했습니다. LCV는 시간 순서로 정렬된 맥락 기사를 검색한 후, LLM에게 각 문장-기사 쌍에 대한 누락 맥락 설명을 생성하게 하고, 이를 이종 그래프 구조에 통합하여 오정보 탐지의 성능을 크게 향상시켰습니다.

핵심 포인트

  • 오정보는 명시적 거짓말 외에도 생략된 배경 사실(누락 맥락)을 통해 오도하는 경우가 많다.
  • 기존의 누락 인지 접근 방식은 누락 신호를 추론하거나 증거를 첨부하는 데 그쳤으나, 본 연구는 누락된 사실 자체를 명시적으로 재구성한다.
  • 제안된 LCV(Latent Causal Void)는 검색 가이드형 탐지기로서, 누락 맥락 설명을 생성하고 이를 이종 그래프 구조에 통합하여 사용한다.
  • LCV는 영어와 중국어 분할 데이터셋에서 기존의 최신 오정보 탐지 베이스라인 대비 높은 성능 향상을 입증했다.

자동 오정보 탐지 (Automatic misinformation detection)는 기사가 명시적으로 기술하는 내용에서 기만이 드러날 때 성능이 좋습니다. 그러나 일부 오정보 기사들은 국소적으로는 일관성을 유지하며, 기사가 생략한 배경 사실을 제공하는 동시대 보고서들과 비교될 때에만 오도하는 성격을 띠게 됩니다. 우리는 이러한 누락 관련 설정 (omission-relevant setting)을 연구하며, 현재의 누락 인지 접근 방식 (omission-aware approaches)들이 일반적으로 검색된 맥락을 보조 증거로 첨부하거나 범주형 누락 신호를 추론할 뿐, 구체적인 누락 사실은 암시적인 상태로 남겨둔다는 점을 관찰했습니다. 우리는 각 대상 문장에 대해 누락된 사실을 명시적으로 재구성하고, 이를 그래프 추론 (graph reasoning)에서의 텍스트 기반 교차 출처 관계 (textual cross-source relation)로 사용하는 검색 가이드형 탐지기인 extit{Latent Causal Void} (LCV)를 제안합니다. 구체적으로, LCV는 시간적으로 정렬된 맥락 기사들을 검색하고, 동결된 지시어 튜닝된 대규모 언어 모델 (instruction-tuned large language model)에게 각 문장-기사 쌍에 대한 짧은 누락 맥락 설명을 생성하도록 요청하며, 결과로 나온 관계 텍스트를 대상 문장들과 맥락 기사들로 구성된 이종 그래프 (heterograph)에 입력합니다. Sheng et al.의 이중 언어 벤치마크에서, LCV는 영어와 중국어 분할 데이터셋에서 가장 강력한 누락 인지 베이스라인 (omission-aware baseline)보다 각각 macro-F1 점수 기준 $2.56$ 및 $2.84$를 향상시켰습니다. 이러한 결과는 단순히 검색된 증거를 첨부하거나 누락 신호를 예측하는 대신, 누락된 교차 출처 사실 자체를 모델링하는 것이 누락 인지 오정보 탐지에 유용한 표현 (representation)임을 나타냅니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0