arXiv논문2026. 06. 30. 11:16

다수결이 소수 가치를 침묵시킨다: HateXplain의 혐오/공격성 경계에서의 어노테이터 불일치

요약

혐오 표현 데이터셋 구축 시 다수결 투표 방식이 혐오와 공격성의 경계 사례에서 발생하는 어노테이터 간의 불일치를 왜곡함을 분석합니다. 다수결 방식이 정답(Ground truth)을 편향되게 설정하여 모델이 잘못된 확신을 학습하게 만드는 구조적 문제를 지적합니다.

핵심 포인트

다수결 투표 방식은 혐오/공격성 경계의 불일치를 중립적으로 처리하지 못함
어노테이터 간 임계값 차이로 인해 불일치 사례에서 모델 정확도가 급격히 하락함
표준 평가 지표는 모델의 경계 사례 오류에 대한 과도한 확신을 감지하기 어려움
데이터 정제보다 어노테이션 설계 단계의 상류(Upstream) 개입이 필수적임

혐오 표현 (Hate speech) 어노테이션 파이프라인은 훈련 전 어노테이터 (Annotator) 간의 불일치를 다수결 투표 (Majority vote) 라벨로 일상적으로 통합합니다. 우리는 이러한 집계가 중립적이지 않음을 보여줍니다. HateXplain의 모든 어노테이터 불일치 중 42.6%가 구체적으로 혐오 (Hate) / 공격성 (Offensive) 경계에 집중되어 있으며, 이는 어노테이터들이 혐오가 시작되는 지점에 대해 서로 다른 임계값 (Threshold)을 적용하고 있다는 패턴과 일치합니다 (chi-squared = 135.199, df = 2, p < 0.0001). 하드 라벨 (Hard-label) BERT 모델 (Model A)과 소프트 라벨 (Soft-label) 모델 (Model B) 모두 일치하는 게시물 (~80%) 대비 불일치 게시물 (~58%)에서 정확도가 22 퍼센트 포인트 하락하며, 이는 p < 0.0001 수준에서 확인되었습니다. 어노테이터별 멀티 헤드 (Multi-head) 모델 (Model C)은 이 격차를 28 포인트까지 더욱 벌리는 동시에 공격성 불일치 정확도를 0.245로 떨어뜨립니다. 결정적으로, Model A는 Model C보다 경계 사례 오류에 대해 현저히 높은 확신 (Confidence)을 나타내며 (0.710 대 0.495, p < 0.0001), 이는 표준 평가 지표 (Evaluation metrics)가 이러한 실패를 감지하지 못할 것임을 의미합니다. 정교함이 점진적으로 증가하는 세 가지 다운스트림 (Downstream) 개입 모두 경계 정확도를 회복하는 데 실패했습니다. 우리는 이 문제가 구조적이라고 주장합니다. 다수결은 논쟁의 여지가 있는 판단을 정답 (Ground truth)으로 제시하며, 모델은 그 잘못된 확신을 물려받습니다. 개입은 어노테이션 설계의 상류 (Upstream) 단계에서 이루어져야 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

다수결이 소수 가치를 침묵시킨다: HateXplain의 혐오/공격성 경계에서의 어노테이터 불일치

요약

핵심 포인트

댓글