본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 17:19

COVID-19 Infodemic. Understanding content features in detecting fake news using

요약

본 연구는 COVID-19 팬데믹 기간에 수집된 데이터를 활용하여, 단어 bigrams와 품사 분포 같은 콘텐츠 및 언어적 특징을 사용하여 가짜 뉴스 탐지 성능을 개선하는 방법을 제시합니다. Decision Tree, K-Nearest Neighbor 등 다양한 전통적인 머신러닝 모델들을 적용한 결과, Random Forest가 가장 우수한 성능을 보였으며, 이는 텍스트 및 언어적 특징이 여전히 효과적인 가짜 뉴스 탐지 도구임을 입증했습니다.

핵심 포인트

  • 가짜 뉴스 탐지에 단어 bigrams와 품사 분포 같은 콘텐츠/언어적 특징을 사용하는 것이 유효함을 보여줍니다.
  • 다양한 전통적 머신러닝 모델(Random Forest, SVM 등)을 비교했을 때, Random Forest가 가장 높은 성능을 기록했습니다.
  • 텍스트 및 언어적 특징은 개별적으로 사용될 때는 가짜 뉴스 탐지를 개선하지만, 이를 단일 모델로 결합할 경우 추가적인 유의미한 개선 효과는 미미합니다.

가짜 뉴스 탐지에 텍스트 및 언어적 특징을 사용하는 것은, 실제 뉴스와 가짜 뉴스를 구분하는 데 기여할 수 있다는 실증적 증거에도 불구하고 연구가 부족합니다. 이에 본 연구는 단어 bigrams(이문), 품사 분포 등의 선택된 콘텐츠 특징을 조사하여 가짜 뉴스 탐지를 개선합니다. 우리는 COVID-19 팬데믹 기간에 수집한 새로운 데이터셋에서 Decision Tree, K-Nearest Neighbor, Logistic Regression, Support Vector Machine, Random Forest를 사용하여 실험을 수행했습니다. 모든 설정에서 Random Forest가 가장 좋은 결과를 보였으며, Support Vector Machine이 그 뒤를 이었습니다. 일반적으로 텍스트 및 언어적 특징은 개별적으로 사용될 때 가짜 뉴스 탐지를 개선하는 것으로 확인되었으나, 이를 단일 모델로 결합할 때는 탐지가 유의미하게 개선되지 않았습니다. bigrams 와 품사 태그의 사용 간에도 차이가 있었습니다. 본 연구는 전통적인 머신러닝 접근법을 사용하여 가짜 뉴스를 탐지할 때 텍스트 및 언어적 특징이 성공적으로 사용될 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0