잠깐, 내가 공정하게 행동하고 있는 걸까? 연역적 스테레오타이핑(Deductive Stereotyping)의 특성 규명 및 Fair-GCG를

경고: 이 논문에는 여러 독성(toxic) 및 공격적인 진술이 포함되어 있습니다. 최근의 대규모 언어 모델(LLMs)에서는 추론(reasoning)이 일반적으로 공정성(fairness)을 향상시키지만, 여전히 실패 사례가 존재합니다. 본 연구에서 우리는 모델이 인구 통계적 수준의 통계적 규칙성을 개별 사례에 적용하여, 논리적으로는 일관되지만 사회적으로 편향된 추론을 생성하는 실패 모드인 연역적 스테레오타이핑(deductive stereotyping)을 식별합니다. 우리는 이 현상에 대한 통계적 해석을 제공합니다. 모델을 공정성 인식 추론(fairness-aware reasoning)으로 유도하기 위해, 우리는 추론 시간 주입(reasoning-time injection) 프레임워크를 제안합니다. 나아가 효과적인 주입 문구(injection phrases)를 체계적으로 발견하기 위해 Fair-GCG를 도입합니다. Fair-GCG에 의해 발견된 주입 문구는 여러 공정성 벤치마크(fairness benchmarks)에서 성능을 향상시키고, 작은 모델에서 큰 LLMs로 일반화되며, 추론 수준의 공정성을 개선하고, 개방형 생성(open-ended generation)에서의 편향을 줄이며, 실제 세계의 공정성 민감 작업(fairness-sensitive tasks)으로 전이됩니다.

Insights

잠깐, 내가 공정하게 행동하고 있는 걸까? 연역적 스테레오타이핑(Deductive Stereotyping)의 특성 규명 및 Fair-GCG를

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들