Sympatheia: 연속적 정동 조건화(Continuous Affect Conditioning)를 통한 감정 적응형 음성 비서
요약
Sympatheia는 사용자의 감정 상태를 연속적인 가치-각성(VA) 신호로 조건화하여 응답하는 음성 대 음성 대화 프레임워크입니다. 멀티모달 센싱을 통해 감정 정보를 통합함으로써, 모호한 상황에서도 의미와 감정이 적절히 정렬된 음성 응답을 생성합니다.
핵심 포인트
- 연속적 정동 조건화(Continuous Affect Conditioning) 도입
- 12개 감정 앵커를 포함한 Sympatheia-18k 데이터셋 구축
- 멀티모달 센싱(표정, 생체 신호 등) 통합 가능성 입증
- 기존 음성 대화 베이스라인 대비 우수한 감정 정렬 성능
공감 능력을 갖춘 음성 대화 시스템(Empathetic spoken dialogue systems)은 적절하게 응답하기 위해 사용자의 감정 상태를 추론해야 하지만, 일상적인 대화는 종종 약하거나 중립적이거나 모호한 정동 단서(affective cues)를 포함합니다. 이를 해결하기 위해, 우리는 사용자의 음성에서 추론된 정동과, 사용 가능한 경우 멀티모달 센싱 모듈(multimodal sensing module) 또는 사용자 인터페이스에 의해 연속적인 가치-각성(valence--arousal, VA) 제어 신호로 제공되는 명시적 정동 사양을 조건으로 하는 음성 대 음성(speech-to-speech) 대화 프레임워크인 Sympatheia를 소개합니다. 모델을 학습시키기 위해, 우리는 12개의 감정 앵커(emotion anchors)를 가진 감정 조건부 합성 음성 대화 코퍼스인 Sympatheia-18k를 구축합니다. 이 데이터셋은 정동적 음성 행동을 학습하기 위한 감정적 분할(emotional split)과, 감정적으로 모호한 경우에 명시적인 감정 제어를 분리하기 위해 감정적으로 중립적인 질의를 여러 감정 조건부 응답과 쌍으로 묶은 중립적 분할(neutral split)을 포함합니다. 실증적 결과에 따르면, Sympatheia는 의미론적 내용과 음성 전달 방식이 모두 감정적으로 적절한 응답을 생성하는 데 있어 음성 대화 베이스라인(speech conversational baselines)보다 뛰어난 성능을 보입니다. 나아가 우리는 동일한 VA 인터페이스가 얼굴 표정, 생체 신호(biosignals), 텍스트 정동 묘사를 포함한 다양한 센싱 모듈의 감정 추정치를 통합할 수 있음을 보여주며, 이는 음성만으로 제한적인 감정 증거를 제공할 때 응답 정렬(response alignment)을 개선합니다. 이러한 결과는 연속적 정동 조건화(continuous affect conditioning)가 감정 적응형 음성 비서를 구축하기 위한 효과적인 실무적 단계임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기