arXiv논문2026. 05. 25. 16:47

사회적 규범 정렬(Social norms alignment)에 대한 자연주의적 측정 방식

요약

사회적 규범 정렬을 측정하기 위해 기존의 폐쇄형 평가 대신 자유 형식의 솔루션 매칭 프레임워크를 제안합니다. 덴마크어 기반의 딜레마 데이터셋과 새로운 지표를 통해 LLM과 인간 간의 사회적 추론 일치도를 평가합니다.

핵심 포인트

자연주의적이고 자유 형식인 솔루션 매칭 프레임워크 제안
명시적 동의 정확도라는 두 가지 새로운 평가 지표 도입
3,000개의 덴마크어 사회적 딜레마 데이터셋 구축
LLM과 인간 간의 사회적 추론 및 정렬 일치도 분석

사회적 규범(Social norms)은 수용 가능한 행동에 대한 공유된 기대를 반영합니다. 사회적 규범 정렬(Social norms alignment)을 측정하는 것은 여전히 어려운 과제로 남아 있으며, 기존의 접근 방식들은 일반적으로 객관식 설문지나 미리 정의된 진술에 대한 동의 여부를 측정하는 것과 같은 인위적인 폐쇄형 평가(closed-form evaluations)에 의존합니다. 본 연구의 맥락에서 사회적 규범 정렬이란 사회적 문제나 딜레마에 대한 해결책들 사이의 일치도를 측정하는 것을 의미합니다. 우리는 솔루션 매칭(solution matching)을 통해 자연주의적이고 자유 형식(free-form)인 환경에서 사회적 규범 정렬을 측정하기 위한 프레임워크를 제안합니다. 이 프레임워크를 통해 우리는 임의의 두 딜레마 응답 사이의 정렬을 측정할 수 있습니다(예: LLM과 인간, LLM과 LLM, 또는 인간과 인간). 우리는 명시적 동의 정확도(stated and explicit agreement accuracy)라는 두 가지 지표를 도입하고, 덴마크어로 된 3,000개의 비사소한(non-trivial) 사회적 딜레마 데이터셋을 구축합니다. 모든 딜레마에는 문화적 기반을 가진 심사위원 역할을 하는 3명의 패널로부터 도출된 참조 솔루션(reference solutions)이 할당됩니다. 우리는 자연스러운 사용자-모델 대화와 유사한 상호작용 설정에서 여러 LLM과 인간의 응답에 대한 일치도를 평가합니다. 연구 결과, 제안된 지표들은 일관된 모델 순위를 생성하며, 이웃 간의 갈등이나 공동 생활 상황과 같은 주제에서 더 높은 일치도가 관찰되는 등 다양한 유형의 딜레마에 걸쳐 일치도의 차이가 있음을 보여줍니다. 전반적으로, 본 연구는 자연주의적인 개방형 대화에서 문화적 기반의 사회적 추론(social reasoning)을 연구하기 위한 데이터셋과 평가 프레임워크를 소개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

사회적 규범 정렬(Social norms alignment)에 대한 자연주의적 측정 방식

요약

핵심 포인트

댓글