본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 05. 16:36

티벳 TTS: 대규모 모델 적응을 통한 저자본 티벳 음성 합성

요약

이 논문은 제한된 자원과 복잡한 언어 구조를 가진 티벳 텍스트-음성 합성(TTS) 문제를 해결하기 위한 대규모 모델 기반 시스템을 제시합니다. 제안된 시스템은 기존의 대규모 음성 합성 모델에 티벳 지향적인 텍스트 표현 및 토큰화기 적응, 그리고 다국어 적응 훈련을 통합했습니다. 실험 결과, 이 시스템은 저자본 조건에서도 매우 안정적이고 자연스러우며 이해 가능한 티벳 음성을 생성하여 기존 상업용 인터페이스를 능가하는 성능을 입증했습니다.

핵심 포인트

  • 티벳 TTS는 제한된 데이터 자원과 복잡한 언어 매핑이라는 어려움이 있었습니다.
  • 제안된 시스템은 대규모 모델 백본에 티벳 특화 텍스트 적응 및 다국어 적응 훈련을 결합하여 성능을 향상시켰습니다.
  • 실험 결과, 이 시스템은 저자본 조건에서도 높은 MOS 점수(4.28~4.35)와 발음 정확도(96.6%~97.6%)를 달성하며 상업용 제품보다 우수한 성능을 보였습니다.
  • 이 접근 방식은 향후 다방언 티벳 음성 합성 시스템 구축의 기술적 기반을 제공합니다.

티벳 텍스트-음성 합성 (TTS) 은 오랫동안 제한된 음성 자원, 중요한 방언적 변이, 그리고 쓰여진 글과 발음 사이의 복잡한 매핑이라는 과제로 직면해 왔습니다. 이러한 문제를 해결하기 위해, 본 작업은 산업계에서 가장 잘 알려진 첫 번째 대규모 모델 기반 티벳 TTS 시스템을 제시합니다. 이 시스템은 Xingchen AGI Lab 에서 개발한 대규모 음성 합성 모델을 기반으로 구축되었습니다. 제안된 시스템은 데이터 품질 향상, 티벳 지향 텍스트 표현 및 토큰화기 적응, 저자본 티벳 음성 합성을 위한 다국어 적응 훈련을 통합했습니다. 실험 결과는 이 시스템이 저자본 조건에서 안정적이고 자연스럽고 이해 가능한 티벳 음성을 생성할 수 있음을 보여줍니다. 주관적 평가에서, 자음 단위의 MOS 점수는 4.28, BPE 기반 시스템은 4.35 로 달성되었으며, 발음 정확도는 각각 97.6% 와 96.6% 로 외부 상업용 티벳 TTS 인터페이스를 능가했습니다. 이러한 결과는 대규모 모델 백본과 티벳 지향 텍스트 표현 적응 및 다국어 적응 훈련을 결합하면 고도로 사용 가능한 저자본 티벳 음성 합성을 가능하게 하며, 또한 향후 통합 다방언 티벳 음성 합성에 기술적 기반을 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0