LuxEmo: 룩셈부르크어를 위한 표현력이 풍부한 텍스트 음성 변환 (TTS) 코퍼스

최첨단 음성 데이터셋은 주로 널리 사용되는 언어에 집중되어 있으며, 음성 기술 연구에서 여전히 과소 대표되고 있는 룩셈부르크어(Luxembourgish)와 같은 저자원 언어(low-resource languages)는 종종 간과됩니다. 본 연구에서는 4가지 감정 카테고리를 포함하는 21시간 분량의 룩셈부르크어 대화형 표현 음성 코퍼스인 LuxEmo를 소개합니다. LuxEmo는 Radio Télévision Luxembourg (RTL)의 청소년 방송에서 자동 탐지 후 인간의 검증을 거쳐 추출되었습니다. 우리는 음성 활동 탐지 (Voice Activity Detection, VAD), 노이즈 제거 (denoising), 언어 식별 (language identification), LuxASR 기반 세그멘테이션 (segmentation), 자동 감정 예측 (automatic emotion prediction), 어휘적 단서 (lexical cues), 그리고 표적화된 인간 검토 (targeted human review)를 결합한 반자동 큐레이션 워크플로우를 제안합니다. 또한, 독일어 기반 교차 언어 전이 (cross-lingual transfer), 다국어 룩셈부르크어 지원, 룩셈부르크어 적응 (adaptation), 그리고 비매개변수적 운율 전이 (non-parametric prosody transfer)를 아우르는 5가지 표현력 있는 TTS 시스템을 벤치마킹합니다. 성능은 객관적 지표와 인간 평가를 모두 사용하여 평가됩니다.

Insights

LuxEmo: 룩셈부르크어를 위한 표현력이 풍부한 텍스트 음성 변환 (TTS) 코퍼스

요약

핵심 포인트

댓글

Claude Fable 5가 내일부터 전 세계적으로 다시 제공됩니다.

무역흑자는 사상 최대인데 원화는 2008년 금융위기급으로 약하다. 앞뒤가 안 맞는 이 그림의 범인은 따로 있다

테슬라가 핸들도 페달도 없는 사이버캡을 공도에 올렸다. 근데 진짜 뉴스는 "FSD가 됐다"가 아니다

메모리값이 세 분기 만에 4배가 됐는데, 다들 원인을 반만 맞히고 있다

무역흑자는 사상 최대인데 원화는 2008년 금융위기급으로 약하다. 앞뒤가 안 맞는 이 그림의 범인은 따로 있다

테슬라가 핸들도 페달도 없는 사이버캡을 공도에 올렸다. 근데 진짜 뉴스는 "FSD가 됐다"가 아니다

메모리값이 세 분기 만에 4배가 됐는데, 다들 원인을 반만 맞히고 있다