남성에게 더 가혹한가? 다양한 갈등 시나리오 전반에 걸친 성별 비대칭적 도덕적 프레이밍에 대한 LLM 평가
요약
LLM의 성별 편향을 평가하기 위해 개발된 새로운 벤치마크 GAMA-Bench를 소개합니다. 실험 결과, 동일한 잘못에 대해 남성 행위자에게 더 처벌적이고 비난 중심적인 프레이밍을 적용하는 성별 비대칭성이 확인되었습니다.
핵심 포인트
- 성별 미러링 벤치마크 GAMA-Bench 제안
- 남성 행위자에게 더 가혹한 LLM의 도덕적 프레이밍 발견
- 모델 규모 및 추론 방식과 관계없이 편향 지속 확인
- 공식 코드 GitHub 공개
LLM(대규모 언어 모델)의 성별 편향에 관한 기존 연구들은 주로 고정관념, 직업적 연관성, 또는 명시적인 유해 출력에 집중해 왔습니다. 본 연구에서는 LLM이 동일한 부정적 행동에 대해 남성 행위자와 여성 행위자 조건이 일치할 때 일관된 응답 기준을 적용하는지 질문합니다. 우리는 친밀한 관계 및 공적 사회 갈등을 다루는 1,298개의 시나리오로 구성된 성별 미러링 벤치마크인 GAMA-Bench를 소개합니다. 이 벤치마크는 통제된 그리드와 교차 모델 검토를 통해 성별 중립적인 비행(misconduct) 템플릿을 구축한 다음, 이를 행위자 성별 및 역할 참조 변형이 일치하는 쌍을 이룬 1인칭 프롬프트로 컴파일합니다. 나아가 우리는 모델이 처벌, 공감, 갈등 심화, 지시, 그리고 비난을 어떻게 할당하는지 측정하기 위해 구조화된 응답 프레이밍 프로토콜을 설계했습니다. 10개의 대표적인 LLM을 대상으로 한 실험 결과, 일관된 남성 불이익 비대칭성이 드러났습니다. 즉, 동일한 비행에 대해 남성 행위자는 더 처벌적이고, 갈등을 심화시키며, 비난 중심적인 프레이밍을 받는 반면, 여성 행위자는 더 치료적이고 공감 지향적인 프레이밍을 받습니다. 추가 분석 결과, 이러한 패턴은 모델 제품군, 시나리오 트랙, 모델 규모 및 명시적인 사고 방식 추론(thinking-style reasoning) 전반에 걸쳐 지속됨을 보여줍니다. 공식 코드는 https://github.com/xufeiqiong/GAMA-Bench 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기