arXiv논문2026. 06. 29. 11:22

음성 강조 모델은 언어와 감정에 걸쳐 일반화될 수 있는가?

요약

다양한 언어와 감정 조건에서 음성 강조를 탐지할 수 있는 MMEE 코퍼스를 소개합니다. 연구 결과, 다국어 학습이 모델의 견고성을 향상시키며 감정 간 전이 성능이 우수함을 확인했습니다.

핵심 포인트

7개 언어 및 34개 감정 카테고리를 포함한 MMEE 코퍼스 공개
다국어 학습이 단일 언어 모델보다 언어 간 전이 성능을 향상시킴
높은 각성과 낮은 각성 감정 사이의 견고한 모델 전이 확인
합성 및 지각 벤치마크 간의 양방향 전이를 통한 운율 구조 시사

운율적 강조 (Prosodic emphasis)는 언어, 감정, 그리고 말하기 스타일에 따라 다양하게 나타나지만, 기존의 강조 탐지 (emphasis detection) 모델들은 주로 단일 언어의 중립적인 낭독 음성 (neutral read speech)을 대상으로 학습 및 평가됩니다. 우리는 7개 언어와 34개의 감정/스타일 카테고리에 걸쳐 전문적으로 녹음된 10,000개의 표현력 있는 발화 (14.13시간)로 구성된 코퍼스인 MMEE (Multilingual Multi-Emotion Emphasis)를 소개합니다. 이 코퍼스는 3단계 지각 라벨 (샘플당 10개의 어노테이션)을 포함합니다. 우리는 단일 언어 (monolingual), 교차 언어 (cross-lingual), 다국어 (multilingual), 교차 감정 (cross-emotion), 교차 데이터셋 (cross-dataset), 그리고 데이터 규모 (data-scale) 설정 하에서 두 가지 최첨단 (state-of-the-art) 아키텍처를 벤치마킹합니다. 단일 언어 모델은 제한적인 제로샷 전이 (zero-shot transfer)를 보이며, 유형론적으로 거리가 먼 언어들 사이에서 성능이 저하되는 반면, 다국어 학습은 견고성 (robustness)을 실질적으로 향상시킵니다. 모델은 높은 각성 (high-arousal) 감정과 낮은 각성 (low-arousal) 감정 사이에서 견고하게 전이됩니다. 합성 (synthetic) 벤치마크와 지각 (perceptual) 벤치마크 간의 양방향 전이는 공유된 운율 구조 (prosodic structure)를 시사하며, 성능은 더 작은 학습 규모에서도 견고하게 유지됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

음성 강조 모델은 언어와 감정에 걸쳐 일반화될 수 있는가?

요약

핵심 포인트

댓글