전파를 고려한 자동 팩트 체크 시스템의 위험 분류 체계
요약
자동 팩트 체크 시스템의 오보 확산 및 명예훼손 위험을 방지하기 위한 새로운 위험 분류 체계를 제안합니다. 위험 요인, 위험 상황, 피해의 3단계 전파 과정을 고려하여 32가지 위험을 정의하고, 이를 통해 DEFAME 시스템의 위험 평가를 수행합니다.
핵심 포인트
- 자동 팩트 체크 시스템의 3단계 위험 전파 모델 제안
- 위험 요인, 위험 상황, 피해를 포함한 32가지 구체적 위험 분류
- 기존 STRIDE 모델로 포착하기 어려운 AI 특화 위험 식별
- DEFAME 시스템에 대한 위험 평가 방법론 제시
최근 몇 년 동안 허위 정보(disinformation)와 오보(misinformation)를 포함한 가짜 뉴스가 소셜 네트워킹 서비스(SNS)에 게시되는 것이 사회적 문제가 되고 있습니다. 이러한 가짜 뉴스에 대응하기 위해, SNS 게시물의 진위 여부를 평가하는 과정인 팩트 체크(fact-checking)의 중요성이 점점 커지고 있습니다. 현재 팩트 체크는 팩트 체크 기관들에 의해 수행되고 있지만, SNS의 모든 게시물을 팩트 체크하는 것은 어렵습니다. 따라서 자동 팩트 체크 시스템(automated fact-checking systems)의 사용이 효과적입니다. 최근의 자동 팩트 체크 시스템은 인공지능(AI)과 대규모 언어 모델(LLM)을 활용하므로, 잘못된 판단을 내리거나 잘못된 결과를 소셜 미디어에 게시하여 오보의 확산으로 이어지거나 명예훼손에 가담하게 될 위험이 있습니다. 본 논문에서는 자동 팩트 체크 시스템의 안전한 사용을 가능하게 하기 위한 첫 번째 단계로서, 자동 팩트 체크 시스템에 대한 구체적인 위험들을 분류합니다. 이 분류 과정에서 우리는 위험 요인(risk factors), 위험 상황(hazardous situations), 그리고 피해(harm)라는 3단계 위험 전파(risk propagation)를 고려합니다. 우리의 분석 결과, 자동 팩트 체크 시스템에는 32가지의 구체적인 위험이 존재하는 것으로 나타났습니다. 본 논문에서는 분류된 위험들을 분석 단서(analytical cues, 가이드 워드)로 활용하여 자동 팩트 체크 시스템인 DEFAME의 위험 평가를 제시합니다. 이 평가 결과는 기존의 IT 보안 위험 평가 방법인 STRIDE를 사용해서는 도출할 수 없는 위험들을 우리의 가이드 워드를 통해서는 도출할 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기