본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 25. 11:46

SpeechEQ: 사회적 인지 능력을 갖춘 음성 대화 모델의 정서 지능 지수(EQ) 벤치마킹

요약

Speech-Language Models(SLMs)의 사회적 인지 능력을 평가하기 위한 새로운 벤치마크 프레임워크인 SpeechEQ를 소개합니다. 기존 평가 방식의 한계를 넘어 다회차 대화에서의 교차 모달 추론 능력을 측정하며, 현재 멀티모달 모델들이 겪는 기술적 병목 현상을 분석합니다.

핵심 포인트

  • EQ-i 2.0 이론 기반 15가지 정서 지능 하위 척도 적용
  • 2,265개의 검증된 다회차 대화 데이터셋 구축
  • 엔드투엔드 모델이 계층형 시스템보다 성능 면에서 우수함 확인
  • 모달리티 지름길, 안전 함정, 맥락적 망각 등 주요 한계점 규명

멀티모달 (Multimodal) 대화 시스템이 구어 상호작용에 점점 더 많이 참여함에 따라, 준언어적 (Paralinguistic) 사회적 신호를 탐색하는 능력은 자연스러운 인간-AI 커뮤니케이션을 위한 핵심적인 병목 현상이 되었습니다. 그러나 기존의 기계 정서 지능 (Machine Emotional Intelligence) 평가는 추론을 오직 고립된 텍스트나 수동적인 음향 인지를 통해서만 평가하며, 능동적인 다회차 대화 (Multi-turn dialogue)에 필요한 복잡한 교차 모달 추론 (Cross-modal reasoning)을 간과하고 있습니다. 우리는 Speech-Language Models (SLMs)의 사회언어학적 추론을 평가하기 위해 설계된 포괄적인 프레임워크인 \textsc{SpeechEQ}를 소개합니다. 이 프레임워크는 EQ-i 2.0 이론에 기반한 15가지 정서 지능 (EQ) 하위 척도에 걸친 2,265개의 검증된 대화 데이터셋과 함께, 인간의 EQ 평가에서 영감을 얻어 제안된 Spoken EQ (SEQ) 점수로 측정되는 다회차 평가 프로토콜을 포함합니다. 실험 결과, 기존의 음성 감정 인식 (Speech Emotion Recognition)과 엔드투엔드 (End-to-end) Speech-Language Models 모두 음성을 통해 준언어적 신호를 이해하고 적용하는 데 한계가 있음을 보여줍니다. 엔드투엔드 아키텍처가 계층형 (Cascaded) 시스템보다 성능이 뛰어나지만, \textsc{SpeechEQ}는 현재의 멀티모달 모델들이 텍스트에 의존하는 "모달리티 지름길 (Modality shortcut)", 정렬 (Alignment)으로 인해 유발된 "안전 함정 (Safety trap)", 그리고 "맥락적 망각 (Contextual amnesia)"에 의해 여전히 병목 현상을 겪고 있음을 드러내며, 진정으로 정서적으로 인지하는 AI로 나아가는 데 있어 장벽이 있음을 강조합니다. 우리의 벤치마크는 https://huggingface.co/datasets/SpeechEQ/SpeechEQ 에서 확인할 수 있으며, 데모 페이지는 https://binomial14.github.io/speecheq-demo/ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0