잠깐, 내가 공정하게 행동하고 있는 걸까? 연역적 스테레오타이핑(Deductive Stereotyping)의 특성 규명 및 Fair-GCG를
요약
LLM이 통계적 규칙성을 개별 사례에 잘못 적용하여 발생하는 '연역적 스테레오타이핑' 현상을 규명합니다. 이를 해결하기 위해 추론 시간 주입 프레임워크와 Fair-GCG 기법을 제안하여 모델의 공정성을 개선합니다.
핵심 포인트
- 논리적으로는 일관되나 사회적으로 편향된 '연역적 스테레오타이핑' 식별
- 추론 시간 주입(reasoning-time injection) 프레임워크 제안
- 공정성 향상을 위한 주입 문구 발견 도구 Fair-GCG 도입
- 다양한 벤치마크 및 모델 크기에서의 일반화 성능 입증
경고: 이 논문에는 여러 독성(toxic) 및 공격적인 진술이 포함되어 있습니다. 최근의 대규모 언어 모델(LLMs)에서는 추론(reasoning)이 일반적으로 공정성(fairness)을 향상시키지만, 여전히 실패 사례가 존재합니다. 본 연구에서 우리는 모델이 인구 통계적 수준의 통계적 규칙성을 개별 사례에 적용하여, 논리적으로는 일관되지만 사회적으로 편향된 추론을 생성하는 실패 모드인 연역적 스테레오타이핑(deductive stereotyping)을 식별합니다. 우리는 이 현상에 대한 통계적 해석을 제공합니다. 모델을 공정성 인식 추론(fairness-aware reasoning)으로 유도하기 위해, 우리는 추론 시간 주입(reasoning-time injection) 프레임워크를 제안합니다. 나아가 효과적인 주입 문구(injection phrases)를 체계적으로 발견하기 위해 Fair-GCG를 도입합니다. Fair-GCG에 의해 발견된 주입 문구는 여러 공정성 벤치마크(fairness benchmarks)에서 성능을 향상시키고, 작은 모델에서 큰 LLMs로 일반화되며, 추론 수준의 공정성을 개선하고, 개방형 생성(open-ended generation)에서의 편향을 줄이며, 실제 세계의 공정성 민감 작업(fairness-sensitive tasks)으로 전이됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기