AraHopeCorpus: 아랍어 소셜 미디어 위기 담론 내 희망적 발화(Hope Speech)를 위한 주석 가이드라인 및 데이터셋
요약
가자 지구 전쟁 관련 YouTube 댓글 10,000개를 분석하여 아랍어 희망적 발화(Hope speech)를 분류한 AraHopeCorpus 데이터셋을 소개합니다. 이 데이터셋은 종교적 격려와 연대 등 건설적인 디지털 담론 연구를 위한 주석 프레임워크를 제공합니다.
핵심 포인트
- 아랍어 희망적 발화 탐지를 위한 최초의 데이터셋 공개
- 댓글의 64% 이상이 희망적 발화로 나타남
- LLM의 아랍어 방언 및 문화적 맥락 처리 한계 확인
- 위기 커뮤니케이션 및 회복 탄력성 연구 자원 제공
소셜 미디어는 무력 충돌 기간 동안 공공의 서사를 형성하는 중요한 장이 되었으며, 유해한 소통과 건설적인 소통이 모두 이루어지는 공간을 제공합니다. 혐오 표현 (Hate speech)과 오정보 (Misinformation)는 널리 연구되어 왔으나, 회복 탄력성 (Resilience), 연대 (Solidarity), 그리고 낙관주의 (Optimism)를 촉진하는 표현은 특히 아랍어 맥락에서 여전히 연구가 부족한 상태입니다. 본 논문은 2023년에서 2024년 사이 가자 지구 전쟁과 관련된 10,000개의 YouTube 댓글에서 수집된 최초의 아랍어 희망적 발화 (Hope speech) 주석 데이터셋인 AraHopeCorpus를 소개합니다. 상세한 주석 프레임워크 (Annotation framework)를 사용하여, 댓글은 희망적 발화 (Hope speech), 희망적 발화 없음 (No hope speech), 그리고 중립 또는 불분명한 담론 (Neutral or unclear discourse)의 세 가지 범주로 분류되었습니다. 데이터셋 분석 결과, 희망적인 언어가 전체 댓글의 64% 이상을 차지하며 지배적인 것으로 나타났습니다. 이러한 희망의 표현들은 주로 종교적 격려, 집단적 연대, 그리고 인내와 정의에 대한 낙관주의로 나타납니다. 약 13%를 차지하는 희망적 발화 없음 (No hope speech)은 절망과 환멸을 반영하며, 나머지 댓글은 중립적이거나 혼합된 내용을 포함하고 있습니다. 주석자 간 일치도 (Inter-Annotator Agreement)는 상당한 수준(Cohen's Kappa = 0.71)에 도달했으나, 방언적 변이 (Dialectal variation), 풍자 (Sarcasm), 그리고 암시적 의미 (Implicit meaning)는 주석 작업에 어려움을 주었습니다. 인간 주석자와 ChatGPT 간의 비교 분석 결과, 대규모 언어 모델 (Large language models, LLM)이 주석 작업을 지원할 수는 있지만, 방언 및 문화적으로 내재된 표현을 처리하는 데에는 여전히 한계가 있음이 드러났습니다. AraHopeCorpus는 연구 목적으로 오픈 및 비상업적 라이선스 하에 공개될 예정입니다. 이는 건설적인 디지털 담론을 연구하기 위한 귀중한 자원을 제공하며, 아랍어 소셜 미디어에서의 희망적 발화 탐지 (Hope speech detection), 위기 커뮤니케이션 (Crisis communication), 그리고 회복 탄력성 (Resilience)에 관한 추가 연구를 가능하게 할 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기