본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 08:22

UR-BERT: 보편적 로마자 표기 및 음성 토큰 예측을 통한 대규모 다국어 TTS용 텍스트 인코더 확장

요약

UR-BERT는 로마자 전사 기반의 텍text-to-speech(TTS) 인코더로, 기존 G2P 방식의 언어 제한을 극복하여 495개 언어까지 확장이 가능합니다. 음성 토큰 예측 목적 함수를 도입하여 음성 인지적 음소 표현을 학습함으로써 음성 충실도와 정렬 성능을 높였습니다.

핵심 포인트

  • 로마자 표기 통합을 통해 지원 언어를 495개로 대폭 확장
  • 음성 토큰 예측을 통한 음성 인지적 음소 표현 학습
  • 기존 텍스트 인코더 베이스라인 모델 대비 우수한 성능 입증
  • 학습되지 않은 언어에 대해서도 강력한 일반화 성능 보유

우리는 대규모 다국어 TTS (Text-to-Speech) 시스템을 위한 로마자 전사 기반의 텍스트-음성 변환 (TTS) 인코더인 UR-BERT를 제안합니다. 기존의 자소-음소 변환 (G2P, Grapheme-to-Phoneme) 기반 방식은 신뢰할 수 있는 G2P 리소스의 가용성 문제로 인해 약 100개 언어 정도로 제한됩니다. 이와 대조적으로, UR-BERT는 다양한 문자 체계를 공유된 로마자 표기 (Romanization) 표현으로 통합함으로써 495개 언어까지 확장 가능합니다. 음성적 충실도 (Phonetic fidelity)와 텍스트-음성 정렬 (Text-speech alignment)을 더욱 향상시키기 위해, 우리는 학습 과정에서 음성 토큰 예측 (Speech token prediction) 목적 함수를 도입하였으며, 이는 인코더가 데이터 효율적인 방식으로 음성을 인식하는 음성 인지적 음소 표현 (Speech-aware phonetic representations)을 학습하도록 유도합니다. 실험 결과, UR-BERT를 기반으로 구축된 TTS 시스템은 광범위한 언어 및 리소스 조건에 걸쳐 최근의 텍스트 인코더 베이스라인 (Baselines) 모델들을 일관되게 능가하며, 학습되지 않은 언어에 대해서도 강력한 일반화 (Generalization) 성능을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0