사회적 선택 이론 관점에서의 AI 정렬 (AI Alignment)
요약
사회적 선택 이론(Social Choice Theory)의 관점에서 AI 정렬 문제를 분석합니다. 인간 피드백 집계 과정에서 발생하는 상충하는 견해와 실패 모드를 식별하고, 불일치를 원칙적으로 처리하기 위한 설계 방안을 연구합니다.
핵심 포인트
- 사회적 선택 이론을 통한 피드백 집계 문제 분석
- 인간 피드백 간의 상충하는 견해와 실패 모드 식별
- 불일치 문제를 해결하기 위한 원칙적인 설계 공간 제시
인간 피드백을 통한 정렬 (Alignment from human feedback)은 사전 학습 (pretraining) 이후 언어 모델의 행동을 유도하기 위해 모델 출력에 대한 인간의 판단을 사용합니다. 이러한 판단이 바람직한 행동에 대한 상충하는 견해를 반영할 때, 학습된 목적 함수 (objective)는 모델이 무엇을 선호해야 하는지에 대한 집계된 결정 (aggregate determination)이 됩니다. 우리는 사회적 선택 이론 (social choice theory)의 관점을 통해 이 집계 문제 (aggregation problem)를 연구한 최근 연구들을 조사합니다. 우리는 사회적 선택 관점이 피드백 집계 계층 (feedback aggregation layer)에서의 실패 모드 (failure modes)를 식별하는 데 어떻게 도움이 되는지, 그리고 명시적이고 원칙적인 방식으로 불일치 (disagreement)를 처리하기 위한 더 넓은 설계 공간 (design space)을 어떻게 드러내는지 설명합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기