본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 16:13

Cohesion-6K: 온라인 담론에서의 사회적 결속 및 갈등 분석을 위한 아랍어 데이터셋

요약

온라인 담론 내 사회적 결속과 갈등을 분석하기 위한 아랍어 데이터셋 Cohesion-6K를 소개합니다. 6,000개의 Facebook 게시물을 5가지 담론 범주로 분류하였으며, 갈등 지향적 게시물이 더 높은 참여를 유도한다는 분석 결과를 제시합니다.

핵심 포인트

  • 아랍어 소셜 미디어 담론 분석을 위한 Cohesion-6K 데이터셋 공개
  • 갈등, 해결, 커뮤니티 참여 등 5가지 담론 범주 분류
  • ChatGPT 보조 주석과 전문가 검증을 통한 높은 일치도 달성
  • 갈등 지향적 게시물이 해결 지향적 게시물보다 높은 참여도 기록

온라인 담론(online discourse)에 대한 연구는 사회적 양극화(societal polarization)를 이해하는 데 핵심적인 요소가 되었습니다. 많은 연구가 명백한 독성(toxicity)을 탐지하는 데 집중해 왔으나, 분열적 서사와 통합적 서사 사이의 상호작용을 의미하는 사회적 결속(social cohesion)의 미묘한 역학은 계산적으로 충분히 탐구되지 않은 상태로 남아 있습니다 (Bail, 2021; Gonzalez-Bailon and Lelkes, 2023). 본 논문은 이스라엘의 팔레스타인 점령과 관련된 6,000개의 아랍어 공개 Facebook 게시물로 구성된, 수동 및 ChatGPT 보조 주석(annotation)이 적용된 데이터셋인 Cohesion-6K를 제시합니다. 각 게시물은 갈등에서 결속으로 이어지는 연속체를 나타내는 다섯 가지 담론 범주 중 하나로 분류됩니다: 갈등(Conflict), 해결(Resolution), 커뮤니티 참여(Community Engagement), 지지적 상호작용(Supportive Interactions), 그리고 공유 가치(Shared Values). 주석 과정은 전문가의 인간적 판단과 훈련된 주석가에 의해 검증된 모델 보조 사전 레이블링(pre-labeling)을 결합하였으며, 상당한 수준의 주석자 간 일치도(Cohens kappa = 0.85)를 달성했습니다. 정량적 분석 결과, 갈등 지향적인 게시물이 해결 지향적인 게시물보다 2배에서 4배 더 많은 사용자 상호작용을 받는 일관된 참여 격차(engagement gap)가 나타났습니다 (p < 0.01). 이러한 패턴은 분열적인 담론이 아랍어 소셜 미디어 공간에서 어떻게 불균형적인 가시성(visibility)을 끌어들이는 경향이 있는지를 보여줍니다. Cohesion-6K는 온라인 결속 및 양극화 연구를 위한 투명하고 재현 가능한 자원을 제공합니다. 본 데이터셋, 주석 가이드라인 및 전처리 코드는 오픈 라이선스 하에 연구용으로 공개될 예정이며, 계산 사회 과학(computational social science), 디지털 커뮤니케이션(digital communication), 그리고 아랍어 자연어 처리(Arabic natural language processing) 분야의 향후 연구를 지원할 것입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0