본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 30. 15:29

EmoTransCap: 담화 내 감정 전환 인식용 음성 캡셔닝을 위한 데이터셋 및 파이프라인

요약

본 논문은 기존의 정적 단일 감정 분석에 머물렀던 음성 감정 캡셔닝(SEC) 분야의 한계를 극복하고, 담화 수준의 동적인 '감정 전환'을 인식하는 새로운 패러다임인 EmoTransCap을 제안합니다. 이를 위해 시간적 감정 역학을 통합한 대규모 데이터셋과 자동 파이프라인을 구축했으며, 이 데이터는 음향 속성과 시간적 단서를 결합하여 의미론적으로 풍부한 설명을 생성하도록 설계되었습니다. 또한, 감정 전환 탐지 및 디아라이제이션을 수행하는 다중 작업 모델(MTETR)과 인간적인 감정 표현력을 갖춘 합성 시스템도 함께 소개합니다.

핵심 포인트

  • 담화 수준의 동적 감정 변화를 포착하는 '감정 전환 인식용 음성 캡셔닝'(EmoTransCap) 패러다임을 제안함.
  • 시간적 감정 역학을 통합한 최초의 대규모 데이터셋과 자동 생성 파이프라인을 구축하여 연구 자원을 제공함.
  • 음향 속성과 시간적 단서를 결합하여 의미론적으로 풍부한 설명을 생성하는 다중 작업 모델(MTETR)을 개발함.
  • 감정 전환 탐지 및 디아라이제이션을 동시에 수행할 수 있는 통합적인 감정 이해 프레임워크를 제시함.
  • 인간과 유사한 감정 표현력을 갖춘 제어 가능한 음성 합성 시스템도 함께 소개하여 응용 가능성을 높임.

감정 인식과 적응적 표현은 인간-에이전트 상호작용의 기본 능력입니다. 최근 음성 감정 캡셔닝 (Speech Emotion Captioning, SEC) 분야의 발전으로 정교한 감정 모델링이 개선되었지만, 기존 시스템은 고립된 문장 내에서의 정적 단일 감정 특성화에만 국한되어 담화 수준의 동적인 감정 전환을 간과하고 있습니다. 이 격차를 해소하기 위해 우리는 시간적 감정 역학을 담화 수준의 음성 설명과 통합하는 패러다임인 감정 전환 인식용 음성 캡셔닝 (Emotion Transition-Aware Speech Captioning, EmoTransCap) 을 제안합니다. 감정 전환이 풍부한 데이터셋을 구축하면서도 확장 가능한 성장을 가능하게 하기 위해, 데이터셋 생성 자동 파이프라인을 설계했습니다. 이는 담화 수준의 감정 전환을 명시적으로 포착하도록 설계된 최초의 대규모 데이터셋입니다. 의미론적으로 풍부한 설명을 생성하기 위해 우리는 담화 수준의 음성에서 음향 속성과 시간적 단서를 통합합니다. 우리의 다중 작업 감정 전환 인식 (Multi-Task Emotion Transition Recognition, MTETR) 모델은 공동으로 감정 전환 탐지 및 디아라이제이션을 수행합니다. LLM 의 의미론 분석 능력을 활용하여 설명형과 지시형 두 가지 버전의 주석을 생성했습니다. 이러한 데이터와 주석은 감정 인식과 감정 표현력을 진전시키는 데 귀중한 자원을 제공합니다. 이 데이터셋은 감정 전환을 포착하는 음성 캡셔닝을 가능하게 하여 시간적 동적이고 정교한 감정 이해를 지원합니다. 우리는 또한 담화 수준에서 제어 가능하며 전환 인식형 감정 음성 합성 시스템을 소개하여 인간처럼 보이는 감정 표현력을 향상시키고 감정 지능형 대화 에이전트를 지원합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0