창발적 정렬(Emergent alignment)과 윤리적 페르소나의 투영 가능성
요약
LLM의 미세 조정이 특정 윤리적 관점을 습득하여 광범위한 안전 행동으로 확장되는 '창발적 정렬' 현상을 연구합니다. 헌법적 AI(CAI) 접근 방식을 통해 모델이 특정 윤리적 페르소나를 투영할 수 있음을 입증했습니다.
핵심 포인트
- 좁은 안전 작업 미세 조정이 광범위한 정렬을 유도함
- 페르소나 선택(PSM) 가설을 통한 윤리적 페르소나 습득 확인
- 의무론, 결과주의 등 다양한 헌법 기반의 CAI 전략 활용
- 정렬 전략 평가 시 투영 가능성(projectability) 고려 필요
'창발적 미정렬 (emergent misalignment)'에 관한 연구는 좁은 범위의 작업(narrow tasks)으로 LLM을 미세 조정(finetuning)하는 것이 광범위하게 미정렬된 행동을 유도할 수 있음을 보여줍니다. 이는 '페르소나 선택 (persona selection, PSM)' 가설을 뒷받침합니다. 즉, 사전 학습 (pre-training) 과정에서 LLM은 다양한 캐릭터와 관점을 시뮬레이션하는 법을 배우며, 이는 사후 학습 (post-training) 과정에서 유도되고 정교화될 수 있습니다. 본 논문은 이와 반대되는 현상인 '창발적 정렬 (emergent alignment)'을 조사하며, 이를 통해 PSM을 지지 및 정교화하고 정렬을 위한 새로운 요구 사항(desideratum)을 제시합니다. 우리는 도움이 되는 행동만을 하도록 학습된 모델을 광범위하고 좁은 안전 작업(safety tasks)에 대해 미세 조정합니다. SFT 샘플을 생성하기 위해, 우리는 '헌법적 AI (Constitutional AI, CAI)' 접근 방식을 따르며 합리적인 정렬 전략을 인코딩하는 네 가지 헌법을 사용합니다: 의무론 (deontology), 결과주의 (consequentialism), 덕 윤리 (virtue ethics), 그리고 인간의 권위에 종속된 AI로서의 정렬입니다. 각 모델에 대해, 우리는 두 가지 좁은 안전 하위 범주로 미세 조정하는 것이 대표적인 일반 안전 범주 세트 전반에 걸쳐, 그리고 좁은 정렬을 위해 사용된 데이터 세트에서 우리가 직접 필터링하여 제외했던 안전 하위 범주에 대해서도 신뢰할 수 있는 창발적 정렬을 유도함을 보여줍니다. 더 세밀한 평가를 통해 'PSM'을 테스트하기 위해, 우리는 다차원적인 '윤리적 페르소나 (ethical persona)' 진단 도구를 사용했습니다. 헌법적으로 미세 조정된 (광범위/좁은) 각 모델에 대해, 그들의 행동이 기대되는 시그니처 프로필(signature profile)과 얼마나 잘 일치하는지 평가합니다. 우리의 결과는 CAI 모델이 기대되는 '윤리적 페르소나'를 습득함을 보여줍니다. 예를 들어, 결과주의 헌법을 사용하여 생성된 SFT 샘플로 좁게 미세 조정된 모델은 의무론적 신념보다 공리주의적 신념에 훨씬 더 많이 동의합니다. 그러나 우리의 거시적 및 미시적 평가 모두에서, (광범위/좁은) 미세 조정된 CAI 모델들 사이에는 그들이 투영(project)되는 정도에 있어 상당한 차이가 있음을 보여줍니다. 우리는 정렬 전략이 단순히 (분포 내/in-distribution) 일반 안전 성능뿐만 아니라, 특히 투영 가능성(projectability)의 정도에 대해서도 평가되어야 한다고 결론짓습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기