LLM의 도덕적 안전성: 혼란스러운 단서(Puzzled Cues)를 통한 수행적 준수(Performative Compliance)의 폭로

대규모 언어 모델(Large Language Models, LLMs)이 의료, 법률 및 채용 맥락에서 도덕적으로 중대한 역할을 맡게 됨에 따라, 우리는 모델의 윤리적 행동이 진정한 것인지 아니면 피상적인 것인지 검토할 필요가 있습니다. 본 연구에서는 현재의 공정성 평가(fairness evaluations)가 도덕적 안전성을 상당히 과대평가하고 있음을 보여줍니다. 모델은 인구통계학적 정체성(demographic identity)이 명시적인 라벨로 제시될 때는 공정해 보이지만, 동일한 정체성을 추론해야 할 때는 측정 가능한 수준으로 공정성이 낮아집니다. 우리는 이러한 실패를 extit{수행적 준수 (performative compliance)}라고 명명하며, 이는 모델이 공정성 평가와 유사한 형식을 띨 때는 공정하게 행동하다가 그러한 단서(cue)가 약해지면 덜 공정해지는 현상을 의미합니다. 우리는 도덕적 딜레마와 인구통계학적 정체성은 고정시킨 채, 해당 정체성이 전달되는 방식만을 변화시키는 단서 변동 방법론(cue-variation methodology)을 도입합니다. 명시적 라벨을 숨겼을 때 해로운 결정이 $+4.4$~pp 증가하며 모델의 안전성 순위가 변동되었고, 이러한 변화는 모델이 인구통계학적 정보를 올바르게 추론했을 때도 지속되어 귀인 오류(attribution error) 가능성을 배제했습니다. 우리는 진정한 도덕적 안전성과 수행적 도덕적 안전성을 구분하기 위해, 기존의 모든 공정성 벤치마크에 추가할 수 있는 모델 불가지론적(model-agnostic) 강건성 지표인 extbf{단서 가시성 격차 (Cue Visibility Gap)}를 제안합니다. 단서 변동을 생략한 공정성 평가는 도덕적 강건성(moral robustness)이 아닌 표면적인 준수만을 측정하며, 따라서 고위험 환경(high-stakes settings)에서의 배포 결정을 뒷받침하는 근거로 사용되어서는 안 됩니다.

Insights

LLM의 도덕적 안전성: 혼란스러운 단서(Puzzled Cues)를 통한 수행적 준수(Performative Compliance)의 폭로

요약

핵심 포인트

댓글

VSCode + 웹 + Git 통합 + GitHub Copilot + Grammarly/LanguageTool + 실시간 협업 지원을 갖춘

Claude Sonnet 5란 무엇인가? Sonnet 4.6에서 무엇이 바뀌었는지 벤치마크와 요금으로 살펴본 차세대 모델 🤖

릴레이 보조 시맨틱 통신에서의 의미론적 누출 및 개인정보 보호

대조 학습 (Contrastive Learning)을 위해 아이의 관점에서 촉각 이해하기

Claude Sonnet 5란 무엇인가? Sonnet 4.6에서 무엇이 바뀌었는지 벤치마크와 요금으로 살펴본 차세대 모델 🤖

릴레이 보조 시맨틱 통신에서의 의미론적 누출 및 개인정보 보호

대조 학습 (Contrastive Learning)을 위해 아이의 관점에서 촉각 이해하기