다수결이 소수 가치를 침묵시킨다: HateXplain의 혐오/공격성 경계에서의 어노테이터 불일치
요약
혐오 표현 데이터셋 구축 시 다수결 투표 방식이 혐오와 공격성의 경계 사례에서 발생하는 어노테이터 간의 불일치를 왜곡함을 분석합니다. 다수결 방식이 정답(Ground truth)을 편향되게 설정하여 모델이 잘못된 확신을 학습하게 만드는 구조적 문제를 지적합니다.
핵심 포인트
- 다수결 투표 방식은 혐오/공격성 경계의 불일치를 중립적으로 처리하지 못함
- 어노테이터 간 임계값 차이로 인해 불일치 사례에서 모델 정확도가 급격히 하락함
- 표준 평가 지표는 모델의 경계 사례 오류에 대한 과도한 확신을 감지하기 어려움
- 데이터 정제보다 어노테이션 설계 단계의 상류(Upstream) 개입이 필수적임
혐오 표현 (Hate speech) 어노테이션 파이프라인은 훈련 전 어노테이터 (Annotator) 간의 불일치를 다수결 투표 (Majority vote) 라벨로 일상적으로 통합합니다. 우리는 이러한 집계가 중립적이지 않음을 보여줍니다. HateXplain의 모든 어노테이터 불일치 중 42.6%가 구체적으로 혐오 (Hate) / 공격성 (Offensive) 경계에 집중되어 있으며, 이는 어노테이터들이 혐오가 시작되는 지점에 대해 서로 다른 임계값 (Threshold)을 적용하고 있다는 패턴과 일치합니다 (chi-squared = 135.199, df = 2, p < 0.0001). 하드 라벨 (Hard-label) BERT 모델 (Model A)과 소프트 라벨 (Soft-label) 모델 (Model B) 모두 일치하는 게시물 (~80%) 대비 불일치 게시물 (~58%)에서 정확도가 22 퍼센트 포인트 하락하며, 이는 p < 0.0001 수준에서 확인되었습니다. 어노테이터별 멀티 헤드 (Multi-head) 모델 (Model C)은 이 격차를 28 포인트까지 더욱 벌리는 동시에 공격성 불일치 정확도를 0.245로 떨어뜨립니다. 결정적으로, Model A는 Model C보다 경계 사례 오류에 대해 현저히 높은 확신 (Confidence)을 나타내며 (0.710 대 0.495, p < 0.0001), 이는 표준 평가 지표 (Evaluation metrics)가 이러한 실패를 감지하지 못할 것임을 의미합니다. 정교함이 점진적으로 증가하는 세 가지 다운스트림 (Downstream) 개입 모두 경계 정확도를 회복하는 데 실패했습니다. 우리는 이 문제가 구조적이라고 주장합니다. 다수결은 논쟁의 여지가 있는 판단을 정답 (Ground truth)으로 제시하며, 모델은 그 잘못된 확신을 물려받습니다. 개입은 어노테이션 설계의 상류 (Upstream) 단계에서 이루어져야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기