LuxEmo: 룩셈부르크어를 위한 표현력이 풍부한 텍스트 음성 변환 (TTS) 코퍼스
요약
저자원 언어인 룩셈부르크어를 위한 21시간 분량의 감정 표현 음성 코퍼스인 LuxEmo를 소개합니다. 반자동 큐레이션 워크플로우를 통해 구축되었으며, 다양한 표현력 있는 TTS 시스템의 성능을 벤치마킹했습니다.
핵심 포인트
- 4가지 감정 카테고리를 포함한 21시간의 룩셈부르크어 음성 데이터셋 구축
- VAD, 노이즈 제거, 자동 감정 예측 등을 결합한 반자동 큐레이션 워크플로우 제안
- 교차 언어 전이 및 비매개변수적 운율 전이를 포함한 5가지 TTS 시스템 벤치마킹
- 객관적 지표와 인간 평가를 통한 다각도 성능 검증
최첨단 음성 데이터셋은 주로 널리 사용되는 언어에 집중되어 있으며, 음성 기술 연구에서 여전히 과소 대표되고 있는 룩셈부르크어(Luxembourgish)와 같은 저자원 언어(low-resource languages)는 종종 간과됩니다. 본 연구에서는 4가지 감정 카테고리를 포함하는 21시간 분량의 룩셈부르크어 대화형 표현 음성 코퍼스인 LuxEmo를 소개합니다. LuxEmo는 Radio Télévision Luxembourg (RTL)의 청소년 방송에서 자동 탐지 후 인간의 검증을 거쳐 추출되었습니다. 우리는 음성 활동 탐지 (Voice Activity Detection, VAD), 노이즈 제거 (denoising), 언어 식별 (language identification), LuxASR 기반 세그멘테이션 (segmentation), 자동 감정 예측 (automatic emotion prediction), 어휘적 단서 (lexical cues), 그리고 표적화된 인간 검토 (targeted human review)를 결합한 반자동 큐레이션 워크플로우를 제안합니다. 또한, 독일어 기반 교차 언어 전이 (cross-lingual transfer), 다국어 룩셈부르크어 지원, 룩셈부르크어 적응 (adaptation), 그리고 비매개변수적 운율 전이 (non-parametric prosody transfer)를 아우르는 5가지 표현력 있는 TTS 시스템을 벤치마킹합니다. 성능은 객관적 지표와 인간 평가를 모두 사용하여 평가됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기