arXiv논문2026. 05. 28. 12:09

이분법적 도덕적 판단을 넘어: AI에서의 윤리적 다원주의 모델링

요약

AI의 이분법적 도덕 판단 한계를 극복하기 위해 윤리적 다원주의를 확률적 분포로 모델링하는 프레임워크를 제안합니다. 규범 윤리 심플렉스를 도입하여 다양한 윤리 이론을 통합하고, 450개의 사례로 구성된 벤치마크를 통해 모델의 성능을 입증했습니다.

핵심 포인트

윤리적 다원주의를 확률적 규범 분포로 모델링
규범 윤리 심플렉스 및 이중 스트림 아키텍처 도입
15개 하위 이론 기반의 450개 사례 벤치마크 구축
맥락 및 규범 정보 통합 시 88.89% 정확도 달성
AI 시스템의 정렬 및 윤리적 이견 분석 지원

사회적으로 중대한 영향을 미치는 영역에서의 비판적 의사결정은 다양한 역량의 AI 시스템을 점점 더 많이 포함하고 있습니다. 그러나 자율 시스템의 편재성에도 불구하고, 자율적인 도덕적 의사결정을 처리하는 대부분의 접근 방식은 스칼라(scalar) 또는 이진(binary) 판단에 의존합니다. 이러한 방법들은 설명력이 부족하며, 책임성을 뒷받침하기 위해 반드시 포함되어야 하는 필수적인 맥락적 및 이론적 정보를 누락하기 때문에 수용 가능한 도덕적 추론을 수행하기에는 불충분합니다. 이를 위해, 우리는 도덕적 추론을 규범적 윤리 이론(normative ethical theories) 또는 윤리적 다원주의(ethical pluralism)에 대한 분포로 모델링하는 프레임워크를 제안합니다. 우리는 이러한 이론들을 통합하는 규범 윤리 심플렉스(normative ethics simplex)를 도입합니다. 또한 스택 앙상블 학습(stacked ensemble learning)을 목적으로 15개의 세분화된 하위 이론(subtheories)에 걸친 450개의 사례로 구성된 벤치마크를 준비했습니다. 이 사례들은 자연어로 된 윤리적 딜레마를 기술하며, 추출된 관련 맥락적 특징(contextual features)을 포함하고 있습니다. 심플렉스의 구현은 이중 스트림 규범-의미론적 아키텍처(two-stream normative-semantic architecture)를 통해 이루어졌습니다. 이어서 규범 정보의 융합과 순차적 스태킹 앙상블(sequential, stacking ensemble)을 통해 세 가지 광범위한 이론인 결과주의(consequentialism), 덕 윤리(virtue ethics), 의무론(deontology) 및 15개의 하위 범주 중 가장 적합한 모델을 학습합니다. 우리의 실험은 맥락적 및 규범적 사전 정보(priors)를 의미론적 임베딩(semantic embeddings)과 통합하는 것이 분류 성능을 유의미하게 향상시켜 88.89%의 정확도를 나타냄을 입증합니다. 우리는 구조화된 윤리적 표현이 유추적 추론(analogical reasoning) 이상의 기여를 한다는 점과, 선택된 스태킹 아키텍처가 세밀함(granularity)의 점진적 학습 덕분에 최상의 결과를 제공한다는 것을 보여주기 위해 절제 연구(ablation studies)를 수행했습니다. 윤리적 다원주의는 또한 엔트로피(entropy), 신뢰도(confidence), 시각화(visualization)를 통해 분석됩니다. 따라서 윤리적 다원주의를 확률적 규범 분포(probabilistic normative distribution)로 모델링하는 것은 인간과 유사한 도덕적 추론, 윤리적 이견 분석, 그리고 향후 AI 시스템의 정렬(alignment)을 지원합니다.

AI 자동 생성 콘텐츠

원문 바로가기

이분법적 도덕적 판단을 넘어: AI에서의 윤리적 다원주의 모델링

요약

핵심 포인트

댓글