NICE: LLM의 사회적 지능을 위한 이론 기반 진단 벤치마크
요약
LLM의 사회적 지능을 정밀하게 측정하기 위한 이론 기반 벤치마크인 NICE를 제안합니다. 사회 이론과 심리 측정 원칙을 바탕으로 구축된 이 프레임워크는 모델의 사회적 역량을 4개 카테고리와 11개 차원으로 세분화하여 진단합니다.
핵심 포인트
- 사회적 지능 측정을 위한 통합 프레임워크 NICE 제안
- 4개 카테고리 및 11개 차원의 세밀한 진단 구조
- LLM이 의사소통 측면에서 일관된 약점을 보임을 발견
- 다회차 및 비언어적 의사소통 능력의 개선 필요성 시사
대규모 언어 모델 (LLMs)이 정서적 동반자 관계나 고객 서비스와 같은 사회적 맥락에 점점 더 많이 적용됨에 따라, 이들의 사회적 지능 (Social Intelligence)을 측정하는 것은 인간-AI 상호작용 (Human-AI Interaction)의 품질과 안전성에 있어 매우 중요해졌습니다. 그러나 기존의 사회적 지능 벤치마크는 사회적 능력을 통일된 구조로 정리하는 통합된 프레임워크가 부족하며, 따라서 세밀한 진단 (Fine-grained diagnosis)을 가능하게 하지 못합니다. 사회 이론에 기반한 최초의 총체적 진단 평가를 구축하기 위해, 우리는 먼저 문헌 검토와 심리 측정 원칙 (Psychometric principles)에 따라 안내된 다단계 전문가 검증을 통해 사회적 지능 프레임워크를 구축했습니다. 결과적으로 도출된 프레임워크는 4개의 카테고리와 11개의 차원을 포함하며, 각 차원은 세밀한 능력 측면 (Capability facets)으로 더욱 구체화됩니다. 이 프레임워크를 바탕으로, 우리는 대표적인 중국어 맥락을 통해 실행 가능한 137개 항목으로 구성된 진단 벤치마크인 NICE (Norm, Interaction, Cognition, Experience)를 소개합니다. 5개의 최첨단 LLMs와 인간 참조 그룹을 대상으로 한 실험 결과, 모델들은 전체적인 정확도에서는 더 높은 점수를 기록했으나, 의사소통 (Communication) 측면에서는 일관된 약점을 보였습니다. 프레임워크는 이러한 약점이 3가지 특정 능력 측면, 즉 다회차 의사소통 (Multi-turn communication), 비언어적 의사소통 (Nonverbal communication), 그리고 동기화 (Synchrony)에 국한됨을 찾아냈습니다. 따라서 NICE는 사회적 지능 평가를 LLM의 사회적으로 중대한 약점에 대한 이론 기반 진단으로 재정의합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기