표면 형식이 중재 결정에 미치는 영향: 코드 혼용(Code-Mixed) 워크플로우 불안정성에 관한 쌍체 연구
요약
코드 혼용(Code-mixed) 입력이 혐오 표현 중재 워크플로우의 안정성에 미치는 영향을 분석한 연구입니다. 영어 기반 임계값을 적용할 경우 코드 혼용 입력에서 결정 반전율이 0.265로 나타나며, 검토 부담과 오탐지율이 크게 증가함을 확인했습니다.
핵심 포인트
- 코드 혼용 입력 시 결정 반전율 0.265 발생
- 검토율이 0.138에서 0.297로 대폭 상승
- 비혐오 콘텐츠에 대한 오탐지율 증가 확인
- 단순 분류 성능보다 워크플로우 관점의 평가 중요성 강조
혐오 표현 중재(Hate moderation)는 종종 깨끗한 영어 입력에 대한 분류(Classification)로 평가되지만, 실제 배포된 시스템은 콘텐츠를 허용(ALLOW), 플래그 지정(FLAG), 또는 검토(REVIEW)와 같은 조치로 라우팅해야 합니다. 본 연구에서는 동일한 근본 콘텐츠를 깨끗한 영어와 타밀어-영어 코드 혼용(Tamil-English code-mix)으로 표현하는 쌍체 평가(Paired evaluation) 설정을 사용하여, 코드 혼용 입력 하에서 이러한 워크플로우가 어떻게 변하는지 연구합니다. 깨끗한 영어 개발 데이터에 맞춰 조정된 임계값(Thresholds) 하에서, 코드 혼용 입력은 상당한 조치 불안정성을 생성하며, 깨끗한 영어와 코드 혼용 간의 쌍체 결정 반전율(Decision flip rate)은 0.265로 나타났습니다. 주요 워크플로우 효과로는 검토 부담의 증가와 비혐오 콘텐츠의 오탐지(False-flagging) 증가가 있습니다. 구체적으로 검토율(Review rate)은 0.138에서 0.297로 상승하였고, 비혐오 오탐지율(Non-hate false-flag rate)은 0.069에서 0.104로 상승했습니다. 타밀어 전용(Tamil-only) 입력은 전반적으로 더 강한 성능 저하를 보였으며, 이는 동일한 코드 혼용 불안정성 패턴이라기보다 더 광범위한 언어 커버리지(Language-coverage)의 한계를 시사합니다. 단순한 불일치 기반 유예 규칙(Disagreement-based deferral rule)은 스트레스가 가해진 입력에 대한 자동 오류를 줄여주지만, 이는 검토 부하를 증가시킴으로써만 가능했습니다. 이러한 결과는 워크플로우 수준의 평가가 표준적인 분류 요약(Classification summaries)이 놓칠 수 있는 중재 실패를 드러낸다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기