인식론적 권리(Epistemic Entitlement)를 통한 LLM의 2차 편향 평가
요약
LLM이 편향된 콘텐츠를 평가할 때 나타나는 '2차 편향(second-order bias)'을 인식론적 관점에서 분석한 연구입니다. 권리 인식론을 바탕으로 모델이 인구통계학적 특성에 따라 편향된 판단을 내리는 방식을 체계적으로 평가하는 새로운 방법론을 제안합니다.
핵심 포인트
- LLM이 편향의 판사 역할을 수행할 때 발생하는 2차 편향 개념 정의
- 권리 인식론(entitlement epistemology) 기반의 새로운 추론 과제 설계
- 인구통계학적 특성에 따른 모델의 판단 편향 측정 지표 개발
- 오픈 및 폐쇄형 모델 모두에서 안전 가드레일을 우회하는 편향 발견
LLM(Large Language Models)의 사회적 편향(social bias)에 대한 평가는 주로 모델이 편향된 콘텐츠를 생성하거나 암시하는지에 초점을 맞춥니다. 그러나 LLM이 편향의 판사로서 점점 더 많이 사용됨에 따라, 이들이 편향된 콘텐츠를 평가하는 방식에서 더 미묘한 방식으로 사회적 편향을 드러낼 수 있으며, 현재의 방법론으로는 이를 체계적으로 포착하지 못합니다. 우리는 이를 2차 편향(second-order bias)이라 부릅니다. 즉, 사회적 편향에 대한 LLM의 판단에 나타나는 사회적 편향을 의미하며, 우리는 이를 철학적 근거를 둔 새로운 추론 과제를 통해 평가합니다. 권리 인식론(entitlement epistemology)에 기반하여, 우리는 편향을 에이전트의 합리적 탐구를 형성하는 잘못 배치된 기초 지식으로 개념화하고, LLM이 편향된 텍스트가 누구에게 수용 가능하거나 수용 불가능한지를 판단하도록 하는 논리적 추론 과제를 도출합니다. 우리는 충분한 근거 없이 수용 가능성을 판단하기 위해 인구통계학적 특성(demographics)을 추론하는 LLM 판사가 얼마나 편향되어 있는지, 그리고 이러한 추론이 편향된 텍스트의 대상이 되는 집단에 따라 어떻게 달라지는지를 측정하기 위한 두 가지 간단한 지표를 개발합니다. 오픈 모델과 폐쇄형 모델을 평가한 결과, 우리의 과제는 모델의 판단 과정에서 편향을 표면화함으로써 안전 가드레일(safety guardrails)을 우회한다는 것을 발견했습니다. 이러한 편향은 대상 집단에 따라 체계적으로 달라지며, 암묵적인 사회적 지도(social maps)를 반영하고, 모델이 여전히 인구통계학적 라벨(demographic labels)에 의해 자극받고 있음을 보여줍니다. 우리의 연구는 판단 과제에서의 LLM 편향 평가의 필요성과, 더 넓게는 NLP(Natural Language Processing)에서의 편향 평가를 위한 보다 이론적 근거를 갖춘 접근 방식의 필요성을 시사합니다. 우리는 코드와 모델 응답을 https://github.com/uofthcdslab/second-order-bias 에서 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기