본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 27. 12:19

혐오 표현 주석을 활용한 LLM 정렬의 속성 기반 진단

요약

본 연구는 10가지 주관적 속성을 통해 LLM의 혐오 표현 정렬 상태를 체계적으로 분석합니다. Llama 3.1 및 Qwen 2.5 모델을 평가한 결과, 행동적 차원과 평가적 차원 간의 정렬 양상 차이를 발견했으며, 속성 분해를 통한 새로운 점수 재구성 방식을 제안합니다.

핵심 포인트

  • 10가지 주관적 속성을 활용한 LLM 정렬 진단 체계 구축
  • 행동적 차원과 평가적 차원 간의 정렬 불일치 확인
  • 인구통계학적 페르소나 조건화의 정렬 개선 효과 미비
  • 속성 분해 기반의 신뢰도 가중 릿지 회귀 모델 제안

혐오 표현 (Hate speech) 주석 작업은 비용이 많이 들고 주관적이며 주석가 간의 의견 불일치가 발생하기 쉬워, 대규모 데이터셋 구축을 어렵게 만듭니다. 본 연구에서는 비인간화 (dehumanization), 폭력 (violence), 감성 (sentiment)과 같이 이론적으로 근거가 있는 10가지 주관적 속성을 통해 대규모 언어 모델 (LLMs)이 인간의 판단과 얼마나 잘 정렬 (align)되는지 체계적으로 분석하며, Llama 3.1 및 Qwen 2.5의 소형 및 대형 변체들을 모두 평가합니다. 우리의 분석 결과, 모든 모델에서 일관된 분리가 나타남을 확인했습니다. 행동적으로 명시적인 차원 (모욕 (insult), 굴욕 (humiliate), 공격-방어 (attack-defend))은 인간의 주석과 강한 상관관계를 보이는 반면, 평가적 차원 (존중 (respect), 감성 (sentiment), 혐오 표현 (hate speech))은 체계적으로 역전되어 나타납니다. 인구통계학적 페르소나 조건화 (Demographic persona conditioning)는 정렬을 개선하지 못한 채 모델의 신뢰도 (confidence)만을 감소시킵니다. 이러한 통찰을 바탕으로, 우리는 신뢰도 가중 릿지 회귀 (confidence-weighted Ridge regression)를 통해 속성 수준의 LLM 예측값을 결합함으로써 Measuring Hate Speech 코퍼스로부터 연속적인 혐오 표현 점수를 재구성할 것을 제안합니다. 이를 통해 최대 0.71의 $R^2$를 달성하고 직접 프롬프팅 (direct prompting) 베이스라인 모델보다 우수한 성능을 보였으며, 이는 구조화된 속성 분해 (attribute decomposition)가 엔드 투 엔드 (end-to-end) 레이블 예측만보다 더 풍부하고 인간과 정렬된 신호를 복구할 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0