EmoTransCap: 담화 내 감정 전환 인식용 음성 캡셔닝을 위한 데이터셋 및 파이프라인

감정 인식과 적응적 표현은 인간-에이전트 상호작용의 기본 능력입니다. 최근 음성 감정 캡셔닝 (Speech Emotion Captioning, SEC) 분야의 발전으로 정교한 감정 모델링이 개선되었지만, 기존 시스템은 고립된 문장 내에서의 정적 단일 감정 특성화에만 국한되어 담화 수준의 동적인 감정 전환을 간과하고 있습니다. 이 격차를 해소하기 위해 우리는 시간적 감정 역학을 담화 수준의 음성 설명과 통합하는 패러다임인 감정 전환 인식용 음성 캡셔닝 (Emotion Transition-Aware Speech Captioning, EmoTransCap) 을 제안합니다. 감정 전환이 풍부한 데이터셋을 구축하면서도 확장 가능한 성장을 가능하게 하기 위해, 데이터셋 생성 자동 파이프라인을 설계했습니다. 이는 담화 수준의 감정 전환을 명시적으로 포착하도록 설계된 최초의 대규모 데이터셋입니다. 의미론적으로 풍부한 설명을 생성하기 위해 우리는 담화 수준의 음성에서 음향 속성과 시간적 단서를 통합합니다. 우리의 다중 작업 감정 전환 인식 (Multi-Task Emotion Transition Recognition, MTETR) 모델은 공동으로 감정 전환 탐지 및 디아라이제이션을 수행합니다. LLM 의 의미론 분석 능력을 활용하여 설명형과 지시형 두 가지 버전의 주석을 생성했습니다. 이러한 데이터와 주석은 감정 인식과 감정 표현력을 진전시키는 데 귀중한 자원을 제공합니다. 이 데이터셋은 감정 전환을 포착하는 음성 캡셔닝을 가능하게 하여 시간적 동적이고 정교한 감정 이해를 지원합니다. 우리는 또한 담화 수준에서 제어 가능하며 전환 인식형 감정 음성 합성 시스템을 소개하여 인간처럼 보이는 감정 표현력을 향상시키고 감정 지능형 대화 에이전트를 지원합니다.

Insights

EmoTransCap: 담화 내 감정 전환 인식용 음성 캡셔닝을 위한 데이터셋 및 파이프라인

요약

핵심 포인트

댓글

Lip-Bu Tan 체제 하의 Intel 파운드리, 첫 외부 고객사 확보. 실적 발표 2일 전 주가 8% 이상 급등

Claude가 이제 어떤 웹사이트의 인터페이스도 직접 복제할 수 있습니다

AI를 상당히 사용하고 있음에도 AI 활용 설문에서는 낮은 점수였다──제2세대 AI 인재라는 생각

AI를 활용한 3D 게임 제작의 어려움을 해결해 주는 threejs-game-skills

Lip-Bu Tan 체제 하의 Intel 파운드리, 첫 외부 고객사 확보. 실적 발표 2일 전 주가 8% 이상 급등

Claude가 이제 어떤 웹사이트의 인터페이스도 직접 복제할 수 있습니다

AI를 상당히 사용하고 있음에도 AI 활용 설문에서는 낮은 점수였다──제2세대 AI 인재라는 생각

AI를 활용한 3D 게임 제작의 어려움을 해결해 주는 threejs-game-skills