arXiv논문2026. 04. 23. 23:37

소셜 미디어의 은폐 광고 탐지 데이터셋 CHASM 공개

요약

본 논문은 소셜 미디어에서 일반 게시물처럼 위장하여 소비자를 속이는 '은폐 광고(covert advertisements)'를 탐지하기 위한 새로운 데이터셋 CHASM을 소개합니다. 현재 LLM 기반의 소셜 미디어 중재 평가 지표들은 이러한 은폐 광고 문제를 간과하고 있습니다. CHASM은 중국 소셜 플랫폼 Rednote의 실제 시나리오를 바탕으로 4,992개의 고품질, 익명화된 수동 큐레이션 데이터로 구성되어 있으며, 제품 경험 공유 게시물 형태가 많아 탐지 난이도가 높습니다. 실험 결과, 현재 MLLM들은 제로샷(zero-shot

핵심 포인트

CHASM은 소셜 미디어의 은폐 광고 탐지를 위한 최초의 전문 데이터셋입니다.
데이터셋은 중국 플랫폼 Rednote의 실제 시나리오 4,992개 사례를 포함합니다.
현재 MLLM들은 제로샷 및 인컨텍스트 학습 환경에서 은폐 광고 탐지에 충분한 신뢰도를 보이지 못했습니다.
오픈소스 MLLM을 CHASM으로 파인튜닝할 경우 성능 향상을 기대할 수 있습니다.

소셜 미디어 콘텐츠를 평가하는 기존 LLM 벤치마크는 일반 게시물처럼 위장하여 소비자를 오도하는 '은폐 광고(covert advertisements)'라는 심각한 위협을 간과하고 있습니다. 이에 본 연구에서는 멀티모달 대규모 언어 모델(MLLMs)이 소셜 미디어의 은폐 광고를 탐지할 수 있도록 돕는 최초의 데이터셋, CHASM을 제시합니다.

CHASM은 중국 소셜 플랫폼 Rednote의 실제 환경에서 수집된 4,992개의 고품질 익명화 데이터를 기반으로 합니다. 이 데이터셋은 제품 경험 공유 게시물 형태로 구성되어 있어 은폐 광고와 유사성이 매우 높고 탐지 난이도가 높습니다.

실험 결과, 현재 사용 가능한 MLLM들은 제로샷(zero-shot) 및 인컨텍스트 학습(in-context learning) 환경 모두에서 은폐 광고를 효과적으로 탐지하는 데 신뢰성이 부족함을 보여주었습니다. 하지만 연구진은 이 데이터셋으로 오픈소스 MLLMs을 파인튜닝(fine-tuning)할 경우 성능 개선이 가능함을 확인했습니다.

연구는 댓글의 미묘한 단서나 시각적/텍스트 구조의 차이를 감지하는 등 여전히 남아있는 과제들을 심층적으로 분석하고, 향후 연구 방향을 제시하며 학계와 플랫폼 운영자들의 더 정교한 방어책 개발을 촉구합니다.

AI 자동 생성 콘텐츠

원문 바로가기