LLM은 이분법적 딜레마를 넘어 도덕적 대안을 상상할 수 있는가?
요약
LLM이 도덕적 딜레마 상황에서 기존의 이분법적 선택을 넘어 새로운 대안을 제시할 수 있는지 연구합니다. MoralAltDataset을 통해 LLM이 타협안이나 재구성된 대안을 생성할 때 인간의 판단과 비교하여 어떤 성능을 보이는지 분석했습니다.
핵심 포인트
- 도덕적 딜레마 해결을 위한 307개의 MoralAltDataset 소개
- LLM이 기존 선택지보다 선호되는 타협안을 생성할 수 있음을 확인
- LLM 생성 대안이 인간 작성 대안보다 높은 선호도를 보이기도 함
- 구조적 품질과 실질적 실행 가능성 사이의 트레이드오프 존재
대규모 언어 모델 (LLMs)이 도덕적 조언자 및 에이전트로 점점 더 많이 배치됨에 따라, 이들은 두 가지 상충하는 가치 사이의 딜레마를 해결해야 합니다. 그러나 도덕적 딜레마를 가진 LLM에 대한 기존 연구는 인간의 도덕적 인지(moral cognition)의 핵심적인 측면, 즉 주어진 선택지를 넘어선 대안을 상상하는 능력을 간과하고 있습니다. 우리는 서사적 조언자(Advisor) 딜레마와 AI를 향한 에이전트(Agent) 딜레마를 아우르는 307개의 도덕적 딜레마 데이터셋인 MoralAltDataset을 소개하며, 각 딜레마는 타협안(compromise) 및 재구성된 대안(reframed alternatives)으로 증강되었습니다. 우리는 먼저 이러한 대안이 도입되었을 때 인간과 LLM이 판단을 바꾸는지 조사합니다. 15개의 LLM을 대상으로 조사한 결과, 타협 대안이 원래의 두 선택지 중 어느 하나보다 선호되는 경우가 많으며, 이는 도덕적 선택을 실질적으로 재형성한다는 것을 발견했습니다. 그런 다음 우리는 쌍체 선호도(pairwise preference) 및 전문가 기반 기준을 사용하여 LLM이 생성한 대안의 품질을 인간이 작성한 대안과 비교 평가합니다. 결과에 따르면 LLM이 생성한 대안은 종종 더 선호되며 미세한 구조적 및 윤리적 기준을 더 잘 충족하는 반면, 구조적 품질과 실질적 실행 가능성 사이의 트레이드오프(trade-offs)를 드러냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기