다국어 파운데이션 모델을 활용한 지속 학습 (Continual Learning)

본 논문은 다국어 소셜 미디어 담론에서 재전유된 비속어 (reclaimed slurs)를 탐지하기 위한 다단계 프레임워크를 제시합니다. 이 연구는 영어, 스페인어, 이탈리아어 트윗 전반에 걸쳐 LGBTQ+ 관련 비속어의 재전유적 사용 (reclamatory usage)과 비재전유적 사용 (non-reclamatory usage)을 식별하는 과제를 다룹니다. 해당 프레임워크는 데이터 부족, 클래스 불균형 (class imbalance), 그리고 감정 표현의 언어 간 변이 (cross-linguistic variation)와 같이 서로 얽혀 있는 세 가지 방법론적 과제를 처리합니다. 이 프레임워크는 교차 검증 (cross-validation)을 통한 데이터 기반 모델 선택, 역번역 (back-translation)을 통한 의미 보존 증강 (semantic-preserving augmentation), 동적 에포크 수준 언더샘플링 (dynamic epoch-level undersampling)을 결합한 귀납적 전이 학습 (inductive transfer learning), 그리고 마스크 언어 모델링 (masked language modeling)을 통한 도메인 특화 지식 주입을 통합합니다. 8개의 다국어 임베딩 모델을 체계적으로 평가하였으며, 매크로 평균 F1 점수 (macro-averaged F1 score)를 기준으로 XLM-RoBERTa를 파운데이션 모델 (foundation model)로 선정하였습니다. GPT-4o-mini를 이용한 타 언어로의 역번역 데이터 증강은 의미적 내용과 클래스 분포 비율을 유지하면서 학습 코퍼스 (training corpus)를 효과적으로 3배로 늘렸습니다. 프레임워크는 평가 목적으로 네 가지 최종 실행 (run)을 생성하는데, RUN 1은 증강 및 언더샘플링을 포함한 귀납적 전이 학습이며, RUN 2는 마스크 언어 모델링 사전 학습을 포함합니다. RUN 3와 RUN 4는 ROC 분석을 통해 최적화된 언어별 결정 임계값 (language-specific decision thresholds)을 통해 정제된 이전의 예측값들입니다. 언어별 임계값 정제 결과, 최적의 결정 경계 (decision boundaries)가 언어마다 크게 다르다는 것이 밝혀졌습니다. 이는 모델 신뢰도 점수의 분포 차이와 재전유 언어 사용의 언어적 변이를 반영합니다. 임계값 기반 최적화는 모델 재학습 없이도 2-5%의 절대적 F1 개선을 가져옵니다. 본 방법론은 완전히 재현 가능하며, 모든 코드와 실험 설정은 https://github.com/rbg-research/MultiPRIDE-Evalita-2026 에서 확인할 수 있습니다.

Insights

다국어 파운데이션 모델을 활용한 지속 학습 (Continual Learning)

요약

핵심 포인트

댓글

React Native Apple Authentication, iOS와 더불어 Android 지원 시작: 완전한 타입 안정성(Type

11개의 마이크로서비스, 7개의 언어, Cloud Service Mesh, Spanner, AlloyDB를 실제 이커머스 흐름으로 보여주는

Andrew Ng가 에이전틱 지식 그래프 (Agentic Knowledge Graphs) 구축에 관한 1시간 무료 마스터클래스를 공개했습니다.

CLAUDE.md 작성 방법과 프로젝트 규모별 설계 패턴 7가지

11개의 마이크로서비스, 7개의 언어, Cloud Service Mesh, Spanner, AlloyDB를 실제 이커머스 흐름으로 보여주는

Andrew Ng가 에이전틱 지식 그래프 (Agentic Knowledge Graphs) 구축에 관한 1시간 무료 마스터클래스를 공개했습니다.

CLAUDE.md 작성 방법과 프로젝트 규모별 설계 패턴 7가지