arXiv논문2026. 06. 05. 14:05

자아에서 타자로: LLM의 혐오 표현 주석 작업 시 인구통계학적 관점 수용 평가

요약

LLM이 페르소나 프롬프팅을 통해 다양한 인구통계학적 관점의 혐오 표현 주석을 인간처럼 시뮬레이션할 수 있는지 평가한 연구입니다. 실험 결과, 세 가지 사회적 판단 측면을 모두 완벽히 포착하는 모델은 없었으나 Llama 3.1 기반의 대리 프롬프팅이 가장 높은 성능을 보였습니다.

핵심 포인트

페르소나 조건부 LLM의 인구통계학적 관점 시뮬레이션 능력 평가
그룹 간 불일치, 내집단 민감도, 대리 예측 세 가지 측면 분석
Llama 3.1을 활용한 대리 프롬프팅이 인간의 판단 패턴에 가장 근접
단순 정체성 프롬프트만으로는 안정적인 성능 확보가 어려움

혐오 표현 탐지(Hate speech detection)는 본질적으로 주관적입니다. 서로 다른 인구통계학적 그룹(demographic groups)에 속한 사람들은 동일한 콘텐츠를 매우 다르게 인식합니다. 여러 인구통계학적 그룹으로부터 충분한 주석(annotations)을 수집하는 것은 비용이 많이 들고 규모를 확장하기 어렵습니다. 페르소나 조건부 거대 언어 모델(Persona-conditioned Large Language Models, 특정 인구통계학적 정체성을 채택하도록 프롬프트가 제공된 모델)은 다양한 관점을 대규모로 시뮬레이션하는 방법으로 제안되어 왔습니다. 하지만 이 모델들이 실제로 서로 다른 그룹 간의 불일치를 반영할까요? 우리는 인간의 사회적 판단에 관한 세 가지 측면을 평가합니다: (i) 서로 다른 그룹의 페르소나가 인간과 유사한 방식으로 불일치하는지(그룹 간 불일치, inter-group disagreement), (ii) 콘텐츠가 자신의 정체성을 겨냥할 때 더 민감해지는지(내집단 민감도, in-group sensitivity), (iii) 다른 그룹이 어떻게 반응할지 정확하게 예측할 수 있는지(대리 예측, vicarious prediction). 연구 결과, 세 가지 차원을 모두 일관되게 포착하는 모델은 없었으며, 성능은 모델에 따라 크게 달라지고 최소한의 정체성 프롬프트(identity prompts)만으로는 안정적으로 나타나지 않았습니다. 그러나 Llama 3.1을 사용한 대리 프롬프팅(vicarious prompting)은 대부분의 인구통계학적 축에서 가장 높은 그룹 간 일치도를 보였으며, 인간의 불일치 패턴에 가장 근접한 전반적인 근사치를 제공했습니다. 이는 이 구성이 인간의 판단과 일치하는 자동 주석 작업을 위한 더 신뢰할 수 있는 설정을 제공할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

자아에서 타자로: LLM의 혐오 표현 주석 작업 시 인구통계학적 관점 수용 평가

요약

핵심 포인트

댓글