arXiv논문2026. 06. 25. 12:07

전파를 고려한 자동 팩트 체크 시스템의 위험 분류 체계

요약

자동 팩트 체크 시스템의 오보 확산 및 명예훼손 위험을 방지하기 위한 새로운 위험 분류 체계를 제안합니다. 위험 요인, 위험 상황, 피해의 3단계 전파 과정을 고려하여 32가지 위험을 정의하고, 이를 통해 DEFAME 시스템의 위험 평가를 수행합니다.

핵심 포인트

자동 팩트 체크 시스템의 3단계 위험 전파 모델 제안
위험 요인, 위험 상황, 피해를 포함한 32가지 구체적 위험 분류
기존 STRIDE 모델로 포착하기 어려운 AI 특화 위험 식별
DEFAME 시스템에 대한 위험 평가 방법론 제시

최근 몇 년 동안 허위 정보(disinformation)와 오보(misinformation)를 포함한 가짜 뉴스가 소셜 네트워킹 서비스(SNS)에 게시되는 것이 사회적 문제가 되고 있습니다. 이러한 가짜 뉴스에 대응하기 위해, SNS 게시물의 진위 여부를 평가하는 과정인 팩트 체크(fact-checking)의 중요성이 점점 커지고 있습니다. 현재 팩트 체크는 팩트 체크 기관들에 의해 수행되고 있지만, SNS의 모든 게시물을 팩트 체크하는 것은 어렵습니다. 따라서 자동 팩트 체크 시스템(automated fact-checking systems)의 사용이 효과적입니다. 최근의 자동 팩트 체크 시스템은 인공지능(AI)과 대규모 언어 모델(LLM)을 활용하므로, 잘못된 판단을 내리거나 잘못된 결과를 소셜 미디어에 게시하여 오보의 확산으로 이어지거나 명예훼손에 가담하게 될 위험이 있습니다. 본 논문에서는 자동 팩트 체크 시스템의 안전한 사용을 가능하게 하기 위한 첫 번째 단계로서, 자동 팩트 체크 시스템에 대한 구체적인 위험들을 분류합니다. 이 분류 과정에서 우리는 위험 요인(risk factors), 위험 상황(hazardous situations), 그리고 피해(harm)라는 3단계 위험 전파(risk propagation)를 고려합니다. 우리의 분석 결과, 자동 팩트 체크 시스템에는 32가지의 구체적인 위험이 존재하는 것으로 나타났습니다. 본 논문에서는 분류된 위험들을 분석 단서(analytical cues, 가이드 워드)로 활용하여 자동 팩트 체크 시스템인 DEFAME의 위험 평가를 제시합니다. 이 평가 결과는 기존의 IT 보안 위험 평가 방법인 STRIDE를 사용해서는 도출할 수 없는 위험들을 우리의 가이드 워드를 통해서는 도출할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

전파를 고려한 자동 팩트 체크 시스템의 위험 분류 체계

요약

핵심 포인트

댓글