OpenBibleTTS: 저자원 언어를 위한 대규모 음성 리소스 및 TTS 모델
요약
저자원 언어의 음성 합성 성능을 평가하기 위한 대규모 벤치마크인 OpenBibleTTS를 소개합니다. 37개 소외 언어를 대상으로 다양한 TTS 아키텍처를 비교 분석하였으며, 데이터셋과 모델을 오픈 소스로 공개합니다.
핵심 포인트
- 37개 소외 언어를 포함한 저자원 TTS 벤치마크 OpenBibleTTS 제안
- Gemini-TTS는 높은 청취자 평점을, EveryVoice 모델은 높은 명료도를 기록
- 오픈 시스템은 도메인 외 텍스트에서 성능 저하가 발생하는 한계 확인
- 연구 지원을 위해 데이터셋, 정렬 데이터, 학습 모델을 오픈 소스로 공개
최근 신경망 텍스트 음성 변환 (TTS) 및 다국어 음성 생성 (Multilingual Speech Generation) 기술의 발전은 합성 음성 품질을 실질적으로 향상시켰으나, 이러한 이점은 전 세계 언어에 걸쳐 여전히 불균등하게 분포되어 있습니다. 기존 모델들은 여전히 소수의 고자원 언어 (High-resource languages)들에 의해 지배되고 있으며, 저자원 TTS (Low-resource TTS)에 관한 많은 연구들은 실제 소외된 환경에서 발생하는 철자 변이 (Orthographic variation) 및 제한된 음성 범위 (Phonetic coverage)를 반영하지 못하는, 인위적으로 다운샘플링된 고자원 코퍼스 (High-resource corpora)를 사용하여 시뮬레이션되고 있습니다. 이에 따라, 우리는 37개의 소외된 언어를 아우르는 저자원 음성 합성 (Low-resource speech synthesis)을 위한 대규모 벤치마크인 OpenBibleTTS를 소개합니다. 또한, 도메인 내 성경 텍스트 (In-domain Biblical text)와 도메인 외 자료 (Out-of-domain material)를 대상으로 다양한 TTS 아키텍처 및 대규모 음성 생성 모델에 대한 체계적인 비교를 수행하였습니다. 결과에 따르면, 단일 시스템이 모든 언어와 지표에서 압도적인 우위를 점하지는 못했습니다. Gemini-TTS는 평가된 대부분의 언어에서 가장 높은 청취자 평점을 기록했으나, OpenBibleTTS로 학습된 단일 언어 EveryVoice 모델은 명료도 (Intelligibility) 측면에서 여전히 가장 강력하며 여러 아프리카 언어에서 선호되었습니다. 반면, 처음부터 학습된 오픈 시스템 (Open from-scratch systems)은 도메인 외 텍스트에서 성능이 급격히 저하되었으며, 이는 광범위한 다국어 커버리지와 소외된 언어 공동체의 신뢰할 수 있는 합성 품질 사이에 지속적인 격차가 존재함을 보여줍니다. 우리는 자동 평가를 주관적인 인간의 판단으로 보완하였으며, 향후 저자원 TTS 연구를 지원하기 위해 모든 처리된 데이터셋, 정렬 (Alignments) 및 학습된 모델을 오픈 소스로 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기