본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:57

JobArabi: 소셜 미디어의 아랍어 구인 공고 코퍼스 및 분석

요약

JobArabi는 2024년 1월부터 2025년 10월까지 X(구 트위터)에서 수집된 20,528개의 아랍어 구인 공고 데이터셋입니다. 언어학적 쿼리 프레임워크를 통해 성별, 방언, 격식체 등 다양한 언어적 특성을 반영하며, 고용 담론의 사회언어학적 패턴을 분석할 수 있는 메타데이터를 제공합니다. 이 코퍼스는 아랍어 NLP 및 계산 사회 과학 연구를 지원하기 위해 공개될 예정입니다.

핵심 포인트

  • X(구 트위터)에서 수집된 20,528개의 대규모 아랍어 구인 공고 코퍼스 구축
  • 성별, 복수형, 방언 등 21개의 키워드 군을 활용한 언어학적 쿼리 프레임워크 적용
  • 참여 지표, 타임스탬프, 지리적 위치 등 분석을 위한 풍부한 메타데이터 포함
  • 온라인 채용 언어의 성별 편향성 및 지역적 직업 수요 차이 등 사회언어학적 패턴 발견
  • 아랍어 NLP 및 디지털 노동 연구를 위한 오픈 소스 자원 제공

본 논문은 2024년 1월부터 2025년 10월 사이에 소셜 미디어에서 수집된 대규모 아랍어 구인 공고 코퍼스(Corpus)인 JobArabi를 소개합니다. 이 데이터셋은 X(구 트위터)에서 수집된 20,528개의 공개 게시물을 포함하며, 아랍어 사용 온라인 커뮤니티 전반에 걸친 2년 이상의 고용 관련 담론을 포착합니다. 해당 코퍼스는 채용 언어의 성별, 복수형, 격식체 및 방언적 표현을 반영하는 21개의 아랍어 키워드 군(Keyword families)을 다루는 언어학적 쿼리 프레임워크(Query framework)를 사용하여 편찬되었습니다. 결과물인 데이터셋은 기관, 상업 및 개인 계정의 게시물을 포함하며, 타임스탬프, 참여 지표(Engagement indicators), 사용 가능한 경우 지리적 위치(Geolocation)와 같은 메타데이터를 제공하여 고용 담론의 시간적 및 지역적 분석을 가능하게 합니다. 정량적 분석(Quantitative analysis) 결과, 온라인 채용에서의 성별 채용 언어의 지속성, 직업 수요의 지역적 차이, 채용 메시지의 감정적 프레이밍(Emotional framing)을 포함한 여러 사회언어학적 패턴이 드러났습니다. 이러한 발견은 노동 시장 커뮤니케이션 및 언어 변화를 연구하기 위한 자원으로서 아랍어 소셜 미디어의 잠재력을 강조합니다. JobArabi 코퍼스는 문서 및 수집 스크립트와 함께 아랍어 자연어 처리 (NLP), 계산 사회 과학 (Computational social science), 디지털 노동 연구를 지원하기 위해 공개될 예정입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0