혐오 표현과 오정보의 교차점에서 이루어지는 보조적 대응 발언(Counterspeech) 작성
요약
본 연구는 혐오 표현과 오정보가 결합된 맥락에서 LLM을 활용한 보조적 대응 발언(Counterspeech) 생성 전략을 제안합니다. 세 가지 지식 기반 프롬프팅 전략을 테스트하고 전문가의 편집을 통해 효과를 검증하였으며, 관련 데이터셋을 공개합니다.
핵심 포인트
- 혐오 표현과 오정보가 결합된 복합적 맥락의 CS 생성 연구
- 팩트체커 및 NGO 가이드라인을 활용한 세 가지 생성 전략 테스트
- 혼합 전략이 사실 교정과 고정관념 완화 측면에서 가장 효과적임
- 전문가 편집이 자연스러움과 가이드라인 준수율을 실질적으로 개선
- 전문가 검증 CS 및 지원 지식이 포함된 데이터셋 공개
혐오 표현(Hate speech)과 오정보(Misinformation)는 온라인에서 빈번하게 동시에 발생하며, 편견과 양극화를 증폭시킵니다. 그 규모를 고려할 때, 전문가의 대응 발언(Counterspeech, CS) 작성을 보조하기 위해 거대 언어 모델(Large Language Models, LLMs)을 사용하는 것에 대한 관심이 높아지고 있으나, 기존 연구들은 이러한 현상들을 각각 별개로 다루어 왔습니다. 본 연구에서는 혐오와 오정보가 동시에 발생하는 맥락에서의 CS 생성을 연구함으로써 이 간극을 메웁니다. 우리는 세 가지 지식 기반 생성 전략을 테스트합니다. 첫째, 팩트체커(Fact-checkers)의 가이드라인과 팩트체크 기사를 사용하여 LLM에 프롬프트를 제공합니다. 둘째, NGO의 가이드라인과 보고서를 사용합니다. 셋째, 양측의 가이드라인과 문서를 결합한 혼합 전략을 생성합니다. 23명의 전문가가 생성된 CS를 수정하였으며, 이는 인간 및 자동화된 지표를 통해 평가되었습니다. LLM은 40%의 사례에서 적절한 CS를 생성하였으나, 전문가의 편집은 자연스러움(Naturalness), 포괄성(Exhaustiveness), 그리고 가이드라인 준수(Adherence to guidelines) 측면을 실질적으로 개선했습니다. 사후 편집된 CS를 바탕으로 한 크라우드소싱 평가 결과, 혼합 전략이 강력한 사실 교정(Factual correction)과 고정관념 완화(Stereotype mitigation) 및 공감적 참여(Empathetic engagement)를 결합하여 가장 효과적임이 입증되었습니다. 우리는 전문가가 검증한 CS와 지원 지식을 포함한, 혐오적이고 오정보가 담긴 주장 데이터셋을 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기