YEZE at SemEval-2026 Task 9: Detecting Multilingual, Multicultural and
요약
본 논문은 SemEval-2026 Task 9를 위해 다국어, 다문화 및 다이벤트 온라인 극단화 콘텐츠 탐지 시스템을 제안합니다. 이 시스템은 22개 언어를 대상으로 이진 분류, 대상 분류, 표현식 식별의 세 가지 하위 작업을 수행합니다. 연구팀은 XLM-RoBERTa와 mDeBERTa를 결합한 이종 앙상블 모델과 멀티태스크 학습, 클래스 가중치 등의 기법을 적용하여 극심한 라벨 불균형 문제를 해결하고 높은 성능을 달성했습니다.
핵심 포인트
- SemEval-2026 Task 9를 위한 다국어 온라인 극단화 콘텐츠 탐지 시스템을 개발함.
- 이진 분류, 대상 분류, 표현식 식별의 세 가지 하위 작업을 통합적으로 처리함.
- XLM-RoBERTa와 mDeBERTa 기반의 이종 앙상블(heterogeneous ensemble) 모델을 제안하여 성능을 극대화함.
- 라벨 불균형 문제를 해결하기 위해 멀티태스크 학습 및 클래스 가중치 적용이 효과적임을 입증함.
본 논문은 SemEval-2026 Task 9: Detecting Multilingual, Multicultural and Multievent Online Polarization 의 시스템을 제시합니다. 이 시스템은 22 개 언어의 극단화된 소셜 미디어 콘텐츠를 식별하기 위해 세 가지 하위 작업인 이진 분류 (binary detection), 대상 분류 (target classification), 그리고 표현식 식별 (manifestation identification) 을 수행합니다. 우리는 XLM-RoBERTa-large 와 mDeBERTa-v3-base 를 결합한 다언어 사전 학습 모델의 이종 앙상블 (heterogeneous ensemble) 을 제안합니다. 극심한 라벨 불균형 하에서 분류 성능을 개선하기 위해 멀티태스크 학습 (multi-task learning), 번역 기반 데이터 증강 (translation-based data augmentation), 클래스 가중치 (class weighting) 등의 기법을 조사합니다. 우리의 연구 결과는 독립적인 작업 모델링과 클래스 가중치를 결합하는 것이 더 효과적임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기