arXiv논문2026. 06. 15. 08:22

UR-BERT: 보편적 로마자 표기 및 음성 토큰 예측을 통한 대규모 다국어 TTS용 텍스트 인코더 확장

요약

UR-BERT는 로마자 전사 기반의 텍text-to-speech(TTS) 인코더로, 기존 G2P 방식의 언어 제한을 극복하여 495개 언어까지 확장이 가능합니다. 음성 토큰 예측 목적 함수를 도입하여 음성 인지적 음소 표현을 학습함으로써 음성 충실도와 정렬 성능을 높였습니다.

핵심 포인트

로마자 표기 통합을 통해 지원 언어를 495개로 대폭 확장
음성 토큰 예측을 통한 음성 인지적 음소 표현 학습
기존 텍스트 인코더 베이스라인 모델 대비 우수한 성능 입증
학습되지 않은 언어에 대해서도 강력한 일반화 성능 보유

우리는 대규모 다국어 TTS (Text-to-Speech) 시스템을 위한 로마자 전사 기반의 텍스트-음성 변환 (TTS) 인코더인 UR-BERT를 제안합니다. 기존의 자소-음소 변환 (G2P, Grapheme-to-Phoneme) 기반 방식은 신뢰할 수 있는 G2P 리소스의 가용성 문제로 인해 약 100개 언어 정도로 제한됩니다. 이와 대조적으로, UR-BERT는 다양한 문자 체계를 공유된 로마자 표기 (Romanization) 표현으로 통합함으로써 495개 언어까지 확장 가능합니다. 음성적 충실도 (Phonetic fidelity)와 텍스트-음성 정렬 (Text-speech alignment)을 더욱 향상시키기 위해, 우리는 학습 과정에서 음성 토큰 예측 (Speech token prediction) 목적 함수를 도입하였으며, 이는 인코더가 데이터 효율적인 방식으로 음성을 인식하는 음성 인지적 음소 표현 (Speech-aware phonetic representations)을 학습하도록 유도합니다. 실험 결과, UR-BERT를 기반으로 구축된 TTS 시스템은 광범위한 언어 및 리소스 조건에 걸쳐 최근의 텍스트 인코더 베이스라인 (Baselines) 모델들을 일관되게 능가하며, 학습되지 않은 언어에 대해서도 강력한 일반화 (Generalization) 성능을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

UR-BERT: 보편적 로마자 표기 및 음성 토큰 예측을 통한 대규모 다국어 TTS용 텍스트 인코더 확장

요약

핵심 포인트

댓글