arXiv논문2026. 06. 18. 11:45

문맥 제한적 Semi-hard Negative Mining을 통한 암시적 혐오 표현 일반화 성능 향상을 위한 암시적 진술 정렬

요약

암시적 혐오 표현 탐지의 성능을 높이기 위해 문맥 제한적 Semi-hard Negative Mining을 활용한 ImpSH 프레임워크를 제안합니다. 이 방식은 게시물을 암시적 진술과 정렬하여 도메인 변화에도 안정적인 분류 성능을 제공합니다.

핵심 포인트

암시적 혐오 표현의 문맥적 이해를 위한 ImpSH 프레임워크 제안
Semi-hard negative mining을 통해 유사 혼동 사례에 학습 집중
기존 지도 대조 학습 대비 우수한 교차 도메인 일반화 성능 입증
BERT 및 HateBERT를 활용한 다양한 데이터셋 검증 완료

암시적 혐오 표현 (Implicit hate speech)을 분류하는 것은 여전히 어려운 과제입니다. 이는 의도가 노골적인 비속어보다는 암시와 문맥을 통해 숨겨지는 경우가 많기 때문입니다. 기존의 지도 대조 학습 (Supervised contrastive learning) 방식은 도메인 내 탐지 성능은 향상시키지만, 표면적인 단서에 과적합(Overfitting)될 수 있으며 데이터셋 간의 전이 (Transfer)에 어려움을 겪을 수 있습니다. 본 논문에서는 게시물을 가능한 경우 암시적 진술 (Implied statements)과 정렬하고, 문맥 제한적 Semi-hard negative mining을 사용하여 유사한 혼동 사례에 학습을 집중시키는 triplet 기반 프레임워크인 ImpSH를 제안합니다. 또한, 데이터 증강 (Data augmentation)을 통해 양성 샘플 (Positives)을 형성하는 AugSH에 대해서도 조사합니다. BERT 및 HateBERT를 사용하여 IHC, SBIC, DynaHate 데이터셋에 대해 통제된 평가를 수행한 결과, ImpSH는 표준 지도 대조 학습 베이스라인의 실행 가능한 대안이며, 동일한 전처리 및 튜닝 예산 하에서 교차 도메인 (Cross-domain) 성능을 종종 향상시킵니다. 정렬 (Alignment)과 균일성 (Uniformity)을 사용한 표현 분석 (Representation analysis) 결과, 균형 잡힌 전역적 확산과 함께 더 긴밀한 양성 쌍을 나타냈으며, 정성적인 최근접 이웃 (Nearest-neighbor) 사례 연구는 도메인 변화 (Domain shift) 하에서의 전형적인 거짓 음성 (False negatives) 사례를 보여줍니다. 이러한 결과는 문맥 제한적 마이닝을 통해 게시물을 암시적 진술과 정렬하는 것이 관련 암시 사항에 대해 더 안정적이고 단사 함수 (Bijective-like)와 유사한 매핑을 제공하며, 전통적인 클러스터링 기반 표현 학습에 내재된 변동성을 극복한다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

문맥 제한적 Semi-hard Negative Mining을 통한 암시적 혐오 표현 일반화 성능 향상을 위한 암시적 진술 정렬

요약

핵심 포인트

댓글