arXiv논문2026. 06. 02. 12:23

성별 단서가 LLM의 가치 상충(Value Trade-offs)에 영향을 미치는가? 통제된 의사결정 벤치마크를 통한 증거

요약

LLM의 의사결정 과정에서 성별 단서가 가치 상충(Value Trade-offs)에 미치는 영향을 분석한 연구입니다. RVDB 벤치마크를 통해 성별 섭동이 모델의 결정 불변성을 해치고 체계적인 결정 반전을 유도함을 입증했습니다.

핵심 포인트

성별 단서가 LLM의 의사결정 반전을 유도하는 체계적 편향 확인
모델이 성별 영향을 부정하더라도 실제 행동은 변화하는 현상 발견
성별 효과는 결정론적이지 않은 가치 경계와 심각한 맥락에서 집중됨
설명 기반 평가를 넘어선 통제된 행동 감사(Behavioral Audits)의 필요성 강조

대규모 언어 모델(Large language models, LLMs)은 가치 민감적 의사결정(value-sensitive decision) 환경에서 점점 더 많이 사용되고 있으며, 이러한 환경에서는 무관한 인구통계학적 단서(demographic cues)가 판단을 변화시켜서는 안 됩니다. 우리는 시나리오, 순서가 지정된 가치 쌍(ordered value pair), 역할(roles), 후보 결정(candidate decisions), 가치 거리(Value Distance), 그리고 의사결정 심각도(Decision Severity)를 고정시킨 채 역할-성별 구성(role-gender configuration)만을 변화시키는 통제된 벤치마크인 Realistic Value Decision Benchmark (RVDB)를 구축했습니다. 7개의 모델을 대상으로 위치 균형 평가(position-balanced evaluation)를 사용하여, 모델이 성별 섭동(gender perturbations) 하에서도 의사결정 불변성(decision invariance)을 유지하는지, 그리고 모델의 자기 귀인(self-attributions)이 관찰된 행동 변화를 반영하는지 테스트했습니다. 연구 결과, 명시적인 성별 단서는 제한적이지만 체계적인 의사결정 반전(decision flips)을 유도하며, 이는 모델에게 성별이 선택에 영향을 미쳤는지 보고하도록 요청하는 명시적 성별 귀인 프롬프트(explicit gender-attribution prompt) 하에서도 나타났습니다. 성별이 교차된 역할 교체(Cross-gender role swaps)는 일관된 '여성 제안 결정(female-proposed-decision)' 비대칭성을 드러내는 반면, 모델들은 반전된 결정을 '영향 없음(No Influence)' 또는 기타 비성별 요인으로 귀인하는 경우가 많았습니다. 추가 분석에 따르면 성별 효과는 결정론적이지 않은 가치 경계(less determinate value boundaries) 근처와 더 심각한 의사결정 맥락(more severe decision contexts) 하에서 집중되는 것으로 나타났으며, 이는 성별 단서가 가치 추론의 전역적 무시(global overrides)라기보다는 국소적 경계 이동 요인(local boundary-shifting factors)으로 작용함을 시사합니다. 가치 순위(Value rankings)는 대체로 안정적으로 유지되지만, 순서가 지정된 가치 쌍의 상충(ordered value-pair trade-offs)은 역할-성별 구성에 따라 불균등하게 변화합니다. 이러한 결과는 성별이 자기 귀인(self-attribution)에서는 가려진 채 LLM의 가치 상충 행동에는 개입할 수 있음을 보여주며, 설명 기반 평가(explanation-based evaluation)를 넘어선 통제된 행동 감사(behavioral audits)의 필요성을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

성별 단서가 LLM의 가치 상충(Value Trade-offs)에 영향을 미치는가? 통제된 의사결정 벤치마크를 통한 증거

요약

핵심 포인트

댓글