arXiv논문2026. 06. 12. 11:57

저자원 알제리 방언어의 루머 탐지를 위한 종단 간 하이브리드 프레임워크

요약

본 논문은 소셜 미디어의 급속한 성장에 따른 루머 확산 문제를 해결하기 위해 알제리 방언 콘텐츠에 특화된 종단 간 하이브리드 프레임워크를 제시합니다. 실제 데이터와 합성 데이터를 결합하여 도메인 특화 주석 데이터셋을 구축하고, 고전 ML부터 트랜스포머까지 다양한 접근법을 평가했습니다.

핵심 포인트

알제리 방언 소셜 미디어 루머 탐지 하이브리드 프레임워크 제시
도메인 특화 데이터셋 및 전사 파이프라인 구축 방법론 소개
트랜스포머 임베딩과 고전 분류기 결합 방식의 우수성 입증 (F1=0.84)
모델 크기보다 도메인 특화 사전 학습의 중요성을 강조

소셜 미디어의 급속한 성장은 루머 확산을 심화시켰습니다. 이 문제는 비공식적이고 코드 스위칭(code-switching) 특성을 가진 방언 콘텐츠, 주석이 달린 자원 부족, 그리고 표준 아랍어 NLP 도구가 방언 텍스트에 적용될 때의 제한된 효과성 때문에 알제리 맥락에서 더욱 어렵습니다. 본 논문은 알제리 방언 소셜 미디어 콘텐츠를 위한 종단 간(end-to-end) 루머 탐지 하이브리드 프레임워크를 제시합니다. 저희는 실제 소셜 미디어 게시물, 합성 데이터, 그리고 FASSILA 코퍼스를 결합하고 유사성 기반 주석 처리 과정을 통해 자동 레이블링함으로써 도메인 특화 주석 데이터셋을 구축했습니다. 또한 아랍어 스크립트와 아라비지(Arabizi)에 병렬 데이터셋을 생성하기 위한 전사 파이프라인도 소개합니다. 저희는 고전 머신러닝, 딥러닝, 트랜스포머(transformers), 그리고 하이브리드 모델을 포함한 여러 접근 방식을 평가했습니다. 실험 결과, 트랜스포머 임베딩과 고전 분류기를 결합한 하이브리드 접근 방식이 가장 우수한 성능을 보여 F1-점수 0.84에 도달하는 것을 확인했습니다. 또한, 저희는 모델 크기보다 도메인 특화 사전 학습(pre-training)이 더 중요하며, 소셜 미디어에서 훈련된 모델이 공식 아랍어 코퍼스에서 훈련된 더 큰 모델들보다 성능이 우수하다는 점을 발견했습니다. 이러한 결과들은 저자원 알제리 방언 환경에서의 루머 탐지 가능성을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

저자원 알제리 방언어의 루머 탐지를 위한 종단 간 하이브리드 프레임워크

요약

핵심 포인트

댓글