arXiv논문2026. 06. 08. 10:33

AI 생성 소셜 봇 콘텐츠의 적대적 생성 및 탐지

요약

LLM 기반 소셜 봇의 정보 조작 문제를 해결하기 위해 적대적 방법론을 제안합니다. 실제 사용자를 사칭하는 모델링을 통해 다국어·교차 플랫폼 데이터셋을 구축하였으며, 이를 통해 기존 모델보다 뛰어난 AI 생성 콘텐츠 탐지 성능을 입증했습니다.

핵심 포인트

LLM과 소셜 봇 결합을 통한 정보 생태계 조작 위험성 지적
정답 데이터 부족 문제를 해결하기 위한 적대적 방법론 도입
인간-AI 메시지 쌍을 포함한 다국어 교차 플랫폼 데이터셋 구축
분포 외 데이터(OOD) 환경에서 기존 모델 대비 우수한 탐지 성능

대규모 언어 모델 (LLM)과 소셜 봇 (Social bots)의 결합은 악의적인 행위자들이 인간과 유사한 콘텐츠를 대규모로 생성함으로써 정보 생태계를 조작할 수 있게 합니다. AI 생성 콘텐츠를 탐지하기 위한 기존 모델들은 주로 정답 데이터 (Ground-truth data)의 부족으로 인해 실제 환경 (In the wild)에서 실패하는 경우가 많습니다. 우리는 악의적인 행위자가 실제 소셜 미디어 사용자를 사칭하는 것을 모델링하는 적대적 방법론 (Adversarial methodology)을 통해 이러한 격차를 해결합니다. 이 방법론을 사용하여, 우리는 인간이 작성한 메시지와 AI가 생성한 메시지가 쌍을 이루는 다국어, 교차 플랫폼 데이터셋을 큐레이션합니다. 이러한 적대적 데이터로 학습하면 AI 생성 텍스트를 정확하게 탐지할 수 있습니다. 우리의 접근 방식은 실제 환경의 분포 외 데이터 (Out-of-distribution data)에서 콘텐츠 기반 봇 탐지를 수행하는 기존 모델들보다 성능이 현저히 뛰어납니다.

AI 자동 생성 콘텐츠

원문 바로가기

AI 생성 소셜 봇 콘텐츠의 적대적 생성 및 탐지

요약

핵심 포인트

댓글