ArPoMeme: 정치적 이데올로기와 양극화를 위한 주석이 달린 아랍어 멀티모달 데이터셋
요약
아랍어 정치 밈의 이데올로기적 성향과 양극화 양상을 분석하기 위한 대규모 멀티모달 데이터셋 ArPoMeme을 제안합니다. 약 7,300개의 밈을 수집하여 정치적 프레이밍과 적대감 등을 정밀하게 주석 처리했습니다.
핵심 포인트
- 7,300개의 아랍어 정치 밈을 포함한 대규모 멀티모달 데이터셋 구축
- 좌파, 이슬람주의, 범아랍주의 등 이데올로기별 분류 제공
- Qwen2.5-VL-7B를 활용한 텍1스트 추출 및 반자동 파이프라인 설계
- 양극화의 세 가지 차원(프레이밍, 적대감, 행동 촉구)에 대한 주석 포함
밈(Memes)은 아랍 세계에서 정치적 소통의 중요한 매체가 되었으며, 유머, 이미지, 텍스트가 어떻게 상호작용하여 이데올로기적 및 문화적 입장을 표현하는지를 반영합니다. 온라인 정치 담론에서 밈이 갖는 중심성에도 불구하고, 아랍어의 멀티모달(Multimodal) 및 이데올로기적 차원을 분석하기 위해 체계적으로 큐레이션된 리소스는 부족한 실정입니다. 본 논문은 좌파(Leftist), 이슬람주의(Islamist), 범아랍주의(Pan-Arabist), 풍자(Satirical) 관점을 포함하여 이데올로기적 성향별로 분류된 약 7,300개의 아랍어 정치 밈으로 구성된 대규모 데이터셋인 ArPoMeme을 제시합니다. 이 데이터셋은 이러한 밈을 생성하고 유포하는 공개 Facebook 페이지 및 그룹의 자기 식별(self-identification)에 분류 근거를 둠으로써 아랍어 밈 생태계의 다양성을 포착합니다. 규모와 정확성을 모두 보장하기 위해, 우리는 Playwright 기반의 Facebook 스크래핑(Scraping)과 Google Drive 동기화를 결합한 반자동 데이터 수집 파이프라인을 설계하였으며, 이어서 Qwen2.5-VL-7B 시각 언어 모델(Vision Language Model)을 사용하여 텍스트 추출을 수행했습니다. 추출된 텍스트는 수동으로 검증되었으며, 세 가지 양극화(Polarization) 차원인 '우리 대 그들(Us vs. Them)' 프레이밍, 외집단에 대한 적대감(Hostility toward out-groups), 그리고 행동 촉구(Calls to action)에 대해 주석(Annotation)이 달렸습니다. 주석 작업은 분산 레이블링(Distributed labeling), 실시간 추적 및 버전 관리를 지원하는 Streamlit 기반의 맞춤형 인터페이스를 통해 수행되었습니다. 결과물인 데이터셋은 시각적 콘텐츠, 텍스트 메시지, 이데올로기적 성향을 연결하여 정치적 대립, 동원(Mobilization), 유머에 대한 세밀한 분석을 가능하게 합니다. 주석이 달린 코퍼스(Corpus)에 대한 정량적 분석 결과, 이데올로기 그룹 간의 적대적 프레이밍에서 강한 비대칭성이 나타났으며, 특히 이슬람주의 및 풍자 밈이 가장 높은 수준의 적대감과 동원 신호를 보였습니다. 이 데이터셋과 주석 도구는 아랍어 정치 담론, 멀티모달 이데올로기 탐지, 그리고 양극화 역학을 연구하기 위한 재현 가능하고 공개적으로 사용 가능한 리소스를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기