AraHopeCorpus: 아랍어 소셜 미디어 위기 담론 내 희망적 발화(Hope Speech)를 위한 주석 가이드라인 및 데이터셋

소셜 미디어는 무력 충돌 기간 동안 공공의 서사를 형성하는 중요한 장이 되었으며, 유해한 소통과 건설적인 소통이 모두 이루어지는 공간을 제공합니다. 혐오 표현 (Hate speech)과 오정보 (Misinformation)는 널리 연구되어 왔으나, 회복 탄력성 (Resilience), 연대 (Solidarity), 그리고 낙관주의 (Optimism)를 촉진하는 표현은 특히 아랍어 맥락에서 여전히 연구가 부족한 상태입니다. 본 논문은 2023년에서 2024년 사이 가자 지구 전쟁과 관련된 10,000개의 YouTube 댓글에서 수집된 최초의 아랍어 희망적 발화 (Hope speech) 주석 데이터셋인 AraHopeCorpus를 소개합니다. 상세한 주석 프레임워크 (Annotation framework)를 사용하여, 댓글은 희망적 발화 (Hope speech), 희망적 발화 없음 (No hope speech), 그리고 중립 또는 불분명한 담론 (Neutral or unclear discourse)의 세 가지 범주로 분류되었습니다. 데이터셋 분석 결과, 희망적인 언어가 전체 댓글의 64% 이상을 차지하며 지배적인 것으로 나타났습니다. 이러한 희망의 표현들은 주로 종교적 격려, 집단적 연대, 그리고 인내와 정의에 대한 낙관주의로 나타납니다. 약 13%를 차지하는 희망적 발화 없음 (No hope speech)은 절망과 환멸을 반영하며, 나머지 댓글은 중립적이거나 혼합된 내용을 포함하고 있습니다. 주석자 간 일치도 (Inter-Annotator Agreement)는 상당한 수준(Cohen's Kappa = 0.71)에 도달했으나, 방언적 변이 (Dialectal variation), 풍자 (Sarcasm), 그리고 암시적 의미 (Implicit meaning)는 주석 작업에 어려움을 주었습니다. 인간 주석자와 ChatGPT 간의 비교 분석 결과, 대규모 언어 모델 (Large language models, LLM)이 주석 작업을 지원할 수는 있지만, 방언 및 문화적으로 내재된 표현을 처리하는 데에는 여전히 한계가 있음이 드러났습니다. AraHopeCorpus는 연구 목적으로 오픈 및 비상업적 라이선스 하에 공개될 예정입니다. 이는 건설적인 디지털 담론을 연구하기 위한 귀중한 자원을 제공하며, 아랍어 소셜 미디어에서의 희망적 발화 탐지 (Hope speech detection), 위기 커뮤니케이션 (Crisis communication), 그리고 회복 탄력성 (Resilience)에 관한 추가 연구를 가능하게 할 것입니다.

Insights

AraHopeCorpus: 아랍어 소셜 미디어 위기 담론 내 희망적 발화(Hope Speech)를 위한 주석 가이드라인 및 데이터셋

요약

핵심 포인트

댓글

일주일 동안 AI에게 내 앱을 55번 테스트하게 했다. 무엇이 망가졌고, 내가 무엇을 망가뜨렸는가

Viatris 분기 실적 전망: 알아야 할 사항

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기

KPMG, AI 네이티브 기업 시스템 개발을 위해 OpenAI와 파트너십 체결

Viatris 분기 실적 전망: 알아야 할 사항

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기

KPMG, AI 네이티브 기업 시스템 개발을 위해 OpenAI와 파트너십 체결