본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 20:25

아랍 여성의 사회적 권익 신장 및 웰빙에 대한 대중 참여: 10년 간의 코퍼스

요약

2013년부터 2024년까지 10년간 수집된 252,487개의 아랍어 Facebook 게시물로 구성된 '아랍 여성과 사회 코퍼스'를 소개합니다. 이 데이터셋은 아랍어 방언과 젠더 담론, 사회적 웰빙에 대한 대규모 분석을 지원합니다.

핵심 포인트

  • 10년간의 아랍어 Facebook 게시물 25만 건 이상 수집
  • 언어 식별 및 정규화 등 자동화된 데이터 처리 파이프라인 적용
  • 아랍어 NLP 및 계산 사회 과학 연구를 위한 대규모 데이터셋 제공
  • 젠더 담론과 사회 개혁에 대한 정서 및 참여 지표 포함

본 논문은 여성의 권익 신장(Empowerment) 및 사회적 웰빙(Wellbeing)과 관련된 252,487개의 공개 아랍어 Facebook 게시물을 10년 동안 수집한 '아랍 여성과 사회 코퍼스(Arabic Women and Society Corpus)'를 제시합니다. 이 코퍼스는 2013년부터 2024년 사이에 77개국에 걸친 51,660개의 페이지에서 수집되었으며, 그 결과 2억 6,700만 건 이상의 사용자 상호작용(Interactions)이 발생했습니다. 각 게시물에는 공유(Shares), 댓글(Comments), 감정적 반응(Emotional reactions)과 같은 참여 지표(Engagement metrics)가 포함되어 있어, 대중의 정서(Sentiment)와 사회적 관심에 대한 독특한 관점을 제공합니다. 데이터는 신뢰성과 재현성(Reproducibility)을 보장하기 위해 언어 식별(Language identification), 정규화(Normalization), 메타데이터 정제(Metadata cleaning)를 포함하는 자동화된 파이프라인을 사용하여 처리되었습니다. 이 코퍼스는 아랍어 방언(Arabic dialects) 전반에 걸친 젠더 담론(Gender discourse), 사회 개혁(Social reform), 그리고 감정적 참여(Emotional engagement)에 대한 대규모 분석을 가능하게 합니다. 또한 아랍어 자연어 처리(Natural language processing, NLP), 계산 사회 과학(Computational social science), 그리고 디지털 커뮤니케이션 연구(Digital communication studies)를 지원합니다. 데이터셋과 관련 문서는 연구 목적으로 요청 시 공개될 예정입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0