arXiv논문2026. 05. 27. 12:19

혐오 표현 주석을 활용한 LLM 정렬의 속성 기반 진단

요약

본 연구는 10가지 주관적 속성을 통해 LLM의 혐오 표현 정렬 상태를 체계적으로 분석합니다. Llama 3.1 및 Qwen 2.5 모델을 평가한 결과, 행동적 차원과 평가적 차원 간의 정렬 양상 차이를 발견했으며, 속성 분해를 통한 새로운 점수 재구성 방식을 제안합니다.

핵심 포인트

10가지 주관적 속성을 활용한 LLM 정렬 진단 체계 구축
행동적 차원과 평가적 차원 간의 정렬 불일치 확인
인구통계학적 페르소나 조건화의 정렬 개선 효과 미비
속성 분해 기반의 신뢰도 가중 릿지 회귀 모델 제안

혐오 표현 (Hate speech) 주석 작업은 비용이 많이 들고 주관적이며 주석가 간의 의견 불일치가 발생하기 쉬워, 대규모 데이터셋 구축을 어렵게 만듭니다. 본 연구에서는 비인간화 (dehumanization), 폭력 (violence), 감성 (sentiment)과 같이 이론적으로 근거가 있는 10가지 주관적 속성을 통해 대규모 언어 모델 (LLMs)이 인간의 판단과 얼마나 잘 정렬 (align)되는지 체계적으로 분석하며, Llama 3.1 및 Qwen 2.5의 소형 및 대형 변체들을 모두 평가합니다. 우리의 분석 결과, 모든 모델에서 일관된 분리가 나타남을 확인했습니다. 행동적으로 명시적인 차원 (모욕 (insult), 굴욕 (humiliate), 공격-방어 (attack-defend))은 인간의 주석과 강한 상관관계를 보이는 반면, 평가적 차원 (존중 (respect), 감성 (sentiment), 혐오 표현 (hate speech))은 체계적으로 역전되어 나타납니다. 인구통계학적 페르소나 조건화 (Demographic persona conditioning)는 정렬을 개선하지 못한 채 모델의 신뢰도 (confidence)만을 감소시킵니다. 이러한 통찰을 바탕으로, 우리는 신뢰도 가중 릿지 회귀 (confidence-weighted Ridge regression)를 통해 속성 수준의 LLM 예측값을 결합함으로써 Measuring Hate Speech 코퍼스로부터 연속적인 혐오 표현 점수를 재구성할 것을 제안합니다. 이를 통해 최대 0.71의 $R^2$를 달성하고 직접 프롬프팅 (direct prompting) 베이스라인 모델보다 우수한 성능을 보였으며, 이는 구조화된 속성 분해 (attribute decomposition)가 엔드 투 엔드 (end-to-end) 레이블 예측만보다 더 풍부하고 인간과 정렬된 신호를 복구할 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

혐오 표현 주석을 활용한 LLM 정렬의 속성 기반 진단

요약

핵심 포인트

댓글