FigSIM: 자살 밈(Suicide Memes)의 세밀한 자살 심각도 및 비유적 언어 분석을 위한 데이터셋
요약
자살 밈의 심각도와 비유적 언어를 분석하기 위한 최초의 데이터셋인 FigSIM을 소개합니다. 1,049개의 밈을 대상으로 심각도, 비유적 현상, 관련 콘텐츠를 주석 처리하여 멀티모달 모델의 성능을 벤치마킹했습니다.
핵심 포인트
- 자살 밈 분석을 위한 최초의 세밀한 데이터셋 FigSIM 공개
- 심각도, 비유적 언어, 자살 관련 콘텐츠의 3가지 주석 체계 구축
- 비유적 밈에서 심각도를 과소 예측하는 모델 편향 확인
- 콘텐츠 중재를 위한 멀티모달 모델 벤치마킹 수행
자살 밈(Suicide memes)은 자살 관련 생각을 표현하거나 자살 관련 이슈에 대해 논평하기 위해 사용되는 밈입니다. 자살 밈은 소셜 미디어에서 점점 더 흔해지고 있지만, 여전히 이해도가 낮으며 잠재적으로 해로울 수 있습니다. 이들의 특성을 더 잘 이해하고, 사용자가 잠재적으로 유해한 콘텐츠에 노출되는 것을 제한하는 적절한 콘텐츠 중재(Content moderation) 전략을 개발하는 것이 시급합니다. 현재 자살 밈에 대한 주석이 달린 데이터셋(Annotated datasets)의 부재는 자동화된 중재 접근 방식을 개발하고 평가하는 데 있어 주요한 장벽으로 남아 있습니다. 본 논문에서는 자살 밈의 세밀한 분석을 위해 설계된 최초의 데이터셋인 FigSIM을 소개합니다. 이 데이터셋은 1,049개의 밈으로 구성되어 있으며, 각 밈은 (1) 세밀한 자살 심각도 수준(Fine-grained suicide severity levels), (2) 비유적 현상(Figurative phenomena, 예: 은유(Metaphors)), (3) 자살 관련 콘텐츠(Suicide-related content, 예: 자살 방법 묘사)에 대해 주석이 달려 있습니다. 우리는 비유적 언어(Figurative language), 자살 심각도(Suicide severity), 자살 관련 콘텐츠 탐지(Suicide-related content detection)라는 세 가지 과제에 대해 16개의 단일 모달(Unimodal) 및 멀티모달(Multimodal) 모델을 벤치마킹합니다. 전반적으로 FigSIM은 자살 밈이 모델링과 콘텐츠 중재 모두에 있어 독특한 과제를 제기한다는 것을 보여줍니다. 분석 결과, 특히 비유적 밈(Figurative memes)의 경우 높은 자살 심각도 수준을 과소 예측하는 것과 같은 편향(Biases)이 드러났습니다. 데이터셋(분석에 사용된 분할 데이터 포함)은 공개적으로 사용 가능합니다. 콘텐츠 경고: 본 논문은 트리거(Triggering)를 유발할 수 있는 자살 관련 콘텐츠를 포함하고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기