arXiv논문2026. 06. 01. 12:36

불일치하는 근거: 혐오 표현 탐지에서의 분류 및 설명 가능성 평가 재고

요약

혐오 표현 탐지 작업에서 인간의 레이블과 근거(rationale) 간의 불일치 및 변동성을 분석한 연구입니다. 분류 지표와 설명 가능성 지표를 통합한 프레임워크를 통해, 주관적인 NLP 평가에서 soft한 표현이 변동성을 포착하는 데 더 효과적임을 입증했습니다.

핵심 포인트

인간의 레이블링 및 근거 제공 과정에서의 변동성 탐구
분류 및 설명 가능성 지표를 통합한 새로운 평가 프로토콜 제안
soft한 표현이 주관적 NLP 작업의 변동성 포착에 유리함 확인
혐오 표현 탐지 등 주관적 NLP 작업의 평가 방식 재고 필요성 강조

인간의 불일치는 레이블링(labeling) 과정에서 어디에나 존재하며 잘 알려진 사실입니다. 그러나 토큰 수준의 인간 근거(human rationales)를 통해 포착되는 설명의 변동성은 여전히 훨씬 덜 탐구된 상태입니다. 동시에, 이러한 변동성을 고려할 때 인간의 레이블과 근거를 어떻게 가장 잘 평가할지, 혹은 다수결(majority vote)을 넘어 근거를 어떻게 가장 잘 집계할지조차 불분명합니다. 하지만 근거는 인간 추론의 풍부함에 대한 추가적인 통찰을 제공할 수 있으며, 이는 특히 혐오 표현 탐지(hate speech detection)와 같은 주관적인 자연어 처리(NLP) 작업에서 스타일, 가치, 해석의 차이로 나타날 수 있습니다. 본 연구에서는 다양한 모델, 학습 전략, 손실 함수(loss functions), 그리고 기존의 평가 지표(evaluation metrics)를 서로 다른 레이블 및 근거 표현 공간(representation spaces)에 걸쳐 체계적으로 재구현함으로써 단일 프로토콜 아래 통합합니다. 분류 지표(Classification metrics)는 예측적(predictive) 및 분포적(distributional)이라는 두 가지 핵심 속성을 중심으로 구성되며, 설명 가능성 지표(explainability metrics)는 개연성(plausibility), 충실성(faithfulness), 복잡성(complexity)이라는 세 가지 상호 보완적인 차원을 통해 구성됩니다. 이 통합된 지도 학습 프레임워크(unified supervision framework)에서, 우리는 분류 및 설명 가능성 지표 전반에 걸친 모델의 동작과 더불어, 레이블 선택(hard 및 soft)과 근거 표현 공간(hard, intermediate 및 soft)에 대한 지표의 민감도를 평가합니다. 결과에 따르면 hard 및 soft 지표 모두 soft한 표현을 선호하는 것으로 나타났으며, 이는 변동성을 포착하는 데 있어 soft한 표현의 효과성과 주관적인 NLP 평가를 재고할 필요성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

불일치하는 근거: 혐오 표현 탐지에서의 분류 및 설명 가능성 평가 재고

요약

핵심 포인트

댓글