본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 13:28

다국어 파운데이션 모델을 활용한 지속 학습 (Continual Learning)

요약

본 연구는 영어, 스페인어, 이탈리아어 소셜 미디어 데이터에서 LGBTQ+ 관련 비속어의 재전유 사용 여부를 탐지하기 위한 다단계 프레임워크를 제안합니다. 데이터 부족, 클래스 불균형, 언어 간 변이 문제를 해결하기 위해 역번역 데이터 증강, 동적 언더샘플링, 마스크 언어 모델링을 결합한 귀납적 전이 학습 방식을 사용합니다. 실험 결과 XLM-RoBERTa가 최적의 파운데이션 모델로 선정되었으며, 언어별 결정 임계값 최적화를 통해 모델 재학습 없이도 성능을 개선할 수 있음을 입증했습니다.

핵심 포인트

  • GPT-4o-mini를 활용한 역번역 데이터 증강으로 학습 코퍼스를 3배 확장하여 데이터 부족 문제 해결
  • XLM-RoBERTa를 파운데이션 모델로 선정하여 다국어 임베딩 성능 확보
  • 동적 에포크 수준 언더샘플링과 마스크 언어 모델링을 통한 도메인 특화 지식 주입
  • 언어별 결정 임계값(language-specific decision thresholds) 최적화로 F1 점수 2-5% 향상
  • 언어마다 결정 경계가 다르다는 점을 확인하여 언어적 변이의 중요성 강조

본 논문은 다국어 소셜 미디어 담론에서 재전유된 비속어 (reclaimed slurs)를 탐지하기 위한 다단계 프레임워크를 제시합니다. 이 연구는 영어, 스페인어, 이탈리아어 트윗 전반에 걸쳐 LGBTQ+ 관련 비속어의 재전유적 사용 (reclamatory usage)과 비재전유적 사용 (non-reclamatory usage)을 식별하는 과제를 다룹니다. 해당 프레임워크는 데이터 부족, 클래스 불균형 (class imbalance), 그리고 감정 표현의 언어 간 변이 (cross-linguistic variation)와 같이 서로 얽혀 있는 세 가지 방법론적 과제를 처리합니다. 이 프레임워크는 교차 검증 (cross-validation)을 통한 데이터 기반 모델 선택, 역번역 (back-translation)을 통한 의미 보존 증강 (semantic-preserving augmentation), 동적 에포크 수준 언더샘플링 (dynamic epoch-level undersampling)을 결합한 귀납적 전이 학습 (inductive transfer learning), 그리고 마스크 언어 모델링 (masked language modeling)을 통한 도메인 특화 지식 주입을 통합합니다. 8개의 다국어 임베딩 모델을 체계적으로 평가하였으며, 매크로 평균 F1 점수 (macro-averaged F1 score)를 기준으로 XLM-RoBERTa를 파운데이션 모델 (foundation model)로 선정하였습니다. GPT-4o-mini를 이용한 타 언어로의 역번역 데이터 증강은 의미적 내용과 클래스 분포 비율을 유지하면서 학습 코퍼스 (training corpus)를 효과적으로 3배로 늘렸습니다. 프레임워크는 평가 목적으로 네 가지 최종 실행 (run)을 생성하는데, RUN 1은 증강 및 언더샘플링을 포함한 귀납적 전이 학습이며, RUN 2는 마스크 언어 모델링 사전 학습을 포함합니다. RUN 3와 RUN 4는 ROC 분석을 통해 최적화된 언어별 결정 임계값 (language-specific decision thresholds)을 통해 정제된 이전의 예측값들입니다. 언어별 임계값 정제 결과, 최적의 결정 경계 (decision boundaries)가 언어마다 크게 다르다는 것이 밝혀졌습니다. 이는 모델 신뢰도 점수의 분포 차이와 재전유 언어 사용의 언어적 변이를 반영합니다. 임계값 기반 최적화는 모델 재학습 없이도 2-5%의 절대적 F1 개선을 가져옵니다. 본 방법론은 완전히 재현 가능하며, 모든 코드와 실험 설정은 https://github.com/rbg-research/MultiPRIDE-Evalita-2026 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0