본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 12:23

성별 단서가 LLM의 가치 상충(Value Trade-offs)에 영향을 미치는가? 통제된 의사결정 벤치마크를 통한 증거

요약

LLM의 의사결정 과정에서 성별 단서가 가치 상충(Value Trade-offs)에 미치는 영향을 분석한 연구입니다. RVDB 벤치마크를 통해 성별 섭동이 모델의 결정 불변성을 해치고 체계적인 결정 반전을 유도함을 입증했습니다.

핵심 포인트

  • 성별 단서가 LLM의 의사결정 반전을 유도하는 체계적 편향 확인
  • 모델이 성별 영향을 부정하더라도 실제 행동은 변화하는 현상 발견
  • 성별 효과는 결정론적이지 않은 가치 경계와 심각한 맥락에서 집중됨
  • 설명 기반 평가를 넘어선 통제된 행동 감사(Behavioral Audits)의 필요성 강조

대규모 언어 모델(Large language models, LLMs)은 가치 민감적 의사결정(value-sensitive decision) 환경에서 점점 더 많이 사용되고 있으며, 이러한 환경에서는 무관한 인구통계학적 단서(demographic cues)가 판단을 변화시켜서는 안 됩니다. 우리는 시나리오, 순서가 지정된 가치 쌍(ordered value pair), 역할(roles), 후보 결정(candidate decisions), 가치 거리(Value Distance), 그리고 의사결정 심각도(Decision Severity)를 고정시킨 채 역할-성별 구성(role-gender configuration)만을 변화시키는 통제된 벤치마크인 Realistic Value Decision Benchmark (RVDB)를 구축했습니다. 7개의 모델을 대상으로 위치 균형 평가(position-balanced evaluation)를 사용하여, 모델이 성별 섭동(gender perturbations) 하에서도 의사결정 불변성(decision invariance)을 유지하는지, 그리고 모델의 자기 귀인(self-attributions)이 관찰된 행동 변화를 반영하는지 테스트했습니다. 연구 결과, 명시적인 성별 단서는 제한적이지만 체계적인 의사결정 반전(decision flips)을 유도하며, 이는 모델에게 성별이 선택에 영향을 미쳤는지 보고하도록 요청하는 명시적 성별 귀인 프롬프트(explicit gender-attribution prompt) 하에서도 나타났습니다. 성별이 교차된 역할 교체(Cross-gender role swaps)는 일관된 '여성 제안 결정(female-proposed-decision)' 비대칭성을 드러내는 반면, 모델들은 반전된 결정을 '영향 없음(No Influence)' 또는 기타 비성별 요인으로 귀인하는 경우가 많았습니다. 추가 분석에 따르면 성별 효과는 결정론적이지 않은 가치 경계(less determinate value boundaries) 근처와 더 심각한 의사결정 맥락(more severe decision contexts) 하에서 집중되는 것으로 나타났으며, 이는 성별 단서가 가치 추론의 전역적 무시(global overrides)라기보다는 국소적 경계 이동 요인(local boundary-shifting factors)으로 작용함을 시사합니다. 가치 순위(Value rankings)는 대체로 안정적으로 유지되지만, 순서가 지정된 가치 쌍의 상충(ordered value-pair trade-offs)은 역할-성별 구성에 따라 불균등하게 변화합니다. 이러한 결과는 성별이 자기 귀인(self-attribution)에서는 가려진 채 LLM의 가치 상충 행동에는 개입할 수 있음을 보여주며, 설명 기반 평가(explanation-based evaluation)를 넘어선 통제된 행동 감사(behavioral audits)의 필요성을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0