ClimateChat-300K: 기후 커뮤니케이션의 다양한 관점 이해를 위한 멀티모달 (Multi-Modal) Facebook 데이터셋
요약
ClimateChat-300K는 2020년부터 2024년 사이 Facebook에서 수집된 약 30만 개의 기후 변화 관련 게시물 데이터셋입니다. 41개의 메타데이터를 포함하며, 기후 담론의 주제, 감성, 참여도를 분석할 수 있는 연구 자원을 제공합니다.
핵심 포인트
- 299,329개의 대규모 Facebook 게시물 데이터셋 공개
- 정책, 액티비즘, 과학 등 10가지 주요 주제 식별
- 감정적 어조와 시각적 콘텐츠가 참여도에 미치는 영향 분석
- 기후 오정보 및 양극화 연구를 위한 개방형 리소스 제공
우리는 CrowdTangle 플랫폼을 통해 2020년 5월부터 2024년 5월 사이에 수집된 기후 변화에 관한 299,329개의 대규모 Facebook 게시물 데이터셋인 ClimateChat-300K를 선보입니다. 이 데이터셋은 게시물 내용, 참여 지표 (engagement metrics), 페이지 속성을 포함하여 41개의 메타데이터 (metadata) 특징을 포함하고 있으며, 전 세계 26,000개 이상의 페이지 자료를 다룹니다. 각 게시물은 언어, 타임스탬프 (timestamp), 페이지 카테고리, 상호작용 횟수와 같은 풍부한 맥락 정보를 포함하고 있어, 기후 커뮤니케이션을 둘러싼 대중적 담론에 대한 포괄적인 분석을 가능하게 합니다. 토픽 모델링 (topic modeling)과 감성 분석 (sentiment analysis)을 사용하여, 우리는 정책 (policy), 액티비즘 (activism), 협력 (cooperation), 과학 (science), 보존 (conservation)의 5개 영역으로 그룹화된 10가지 주요 주제를 식별했습니다. 결과에 따르면 감정적 어조 (emotional tone), 게시물 형식, 페이지 정체성이 청중의 참여에 강력한 영향을 미치며, 시각적으로 풍부하고 감정적으로 격앙된 콘텐츠가 가장 높은 수준의 상호작용을 받는 것으로 나타났습니다. 또한 이 데이터셋은 국제 기후 정상회의 및 COVID-19 팬데믹 기간과 같은 주요 사건에 대응하여 온라인 토론이 어떻게 진화했는지 보여줍니다. ClimateChat-300K는 양극화 (polarization), 오정보 (misinformation), 그리고 디지털 기후 담론의 역학에 관한 재현 가능하고 학제적인 연구를 위한 개방형 리소스를 제공합니다. 이 데이터셋을 공개함으로써, 우리는 투명하고 데이터 중심적인 연구를 지원하고, 시간, 지리, 제도적 맥락에 따라 기후 문제에 대한 대중의 참여가 어떻게 발전하는지에 대한 더 깊은 이해에 기여하고자 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기