arXiv논문2026. 06. 15. 11:21

남성에게 더 가혹한가? 다양한 갈등 시나리오 전반에 걸친 성별 비대칭적 도덕적 프레이밍에 대한 LLM 평가

요약

LLM의 성별 편향을 평가하기 위해 개발된 새로운 벤치마크 GAMA-Bench를 소개합니다. 실험 결과, 동일한 잘못에 대해 남성 행위자에게 더 처벌적이고 비난 중심적인 프레이밍을 적용하는 성별 비대칭성이 확인되었습니다.

핵심 포인트

성별 미러링 벤치마크 GAMA-Bench 제안
남성 행위자에게 더 가혹한 LLM의 도덕적 프레이밍 발견
모델 규모 및 추론 방식과 관계없이 편향 지속 확인
공식 코드 GitHub 공개

LLM(대규모 언어 모델)의 성별 편향에 관한 기존 연구들은 주로 고정관념, 직업적 연관성, 또는 명시적인 유해 출력에 집중해 왔습니다. 본 연구에서는 LLM이 동일한 부정적 행동에 대해 남성 행위자와 여성 행위자 조건이 일치할 때 일관된 응답 기준을 적용하는지 질문합니다. 우리는 친밀한 관계 및 공적 사회 갈등을 다루는 1,298개의 시나리오로 구성된 성별 미러링 벤치마크인 GAMA-Bench를 소개합니다. 이 벤치마크는 통제된 그리드와 교차 모델 검토를 통해 성별 중립적인 비행(misconduct) 템플릿을 구축한 다음, 이를 행위자 성별 및 역할 참조 변형이 일치하는 쌍을 이룬 1인칭 프롬프트로 컴파일합니다. 나아가 우리는 모델이 처벌, 공감, 갈등 심화, 지시, 그리고 비난을 어떻게 할당하는지 측정하기 위해 구조화된 응답 프레이밍 프로토콜을 설계했습니다. 10개의 대표적인 LLM을 대상으로 한 실험 결과, 일관된 남성 불이익 비대칭성이 드러났습니다. 즉, 동일한 비행에 대해 남성 행위자는 더 처벌적이고, 갈등을 심화시키며, 비난 중심적인 프레이밍을 받는 반면, 여성 행위자는 더 치료적이고 공감 지향적인 프레이밍을 받습니다. 추가 분석 결과, 이러한 패턴은 모델 제품군, 시나리오 트랙, 모델 규모 및 명시적인 사고 방식 추론(thinking-style reasoning) 전반에 걸쳐 지속됨을 보여줍니다. 공식 코드는 https://github.com/xufeiqiong/GAMA-Bench 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

남성에게 더 가혹한가? 다양한 갈등 시나리오 전반에 걸친 성별 비대칭적 도덕적 프레이밍에 대한 LLM 평가

요약

핵심 포인트

댓글