본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 16:23

JaiTTS: 태국어 음성 복제 모델

요약

JaiTTS-v1.0은 대규모 태국어 음성 코퍼스를 활용하여 개발된 최첨단 태국어 TTS(Text-to-Speech) 모델입니다. 이 모델은 VoxCPM 아키텍처를 기반으로 하며, 명시적인 텍스트 정규화 과정 없이도 숫자 처리와 태국어-영어 코드 스위칭을 효과적으로 지원합니다. 테스트 결과, JaiTTS-v1.0은 단기간 및 장기간 음성 생성 작업 모두에서 높은 성능을 입증했으며, 인간 평가에서도 상업용 제품 대비 우수한 성능을 보여주었습니다.

핵심 포인트

  • JaiTTS-v1.0은 대규모 태국어 코퍼스를 이용해 구축된 최첨단 TTS 모델입니다.
  • VoxCPM 아키텍처를 차용하여 개발되었으며, 텍스트 정규화 없이도 숫자 및 코드 스위칭을 처리할 수 있습니다.
  • 단기간 음성 생성에서 인간 기준 진실(1.98%)에 근접한 1.94%의 CER을 달성했습니다.
  • 인간 평가 결과, 상업용 플래그십 제품 대비 압도적인 우위를 점하며 성능을 입증했습니다.

우리는 대규모 태국어 중심 음성 코퍼스 (corpus) 에 대한 연속적 학습 (continual training) 을 통해 구축한 최첨단 태국어 음성 복제 텍스트-음성 변환 (text-to-speech, TTS) 모델인 JaiTTS-v1.0 을 제시합니다. 이 모델의 아키텍처는 토크나이저 없는 오토리귀시브 TTS 모델인 VoxCPM 에서 차용되었습니다. JaiTTS-v1.0 은 명시적인 텍스트 정규화 (text normalization) 없이도 숫자와 태국어-영어 코드 스위칭 (code-switching) 을 직접 처리하며, 이는 실제 환경에서 매우 흔하게 나타나는 현상입니다. 우리는 단기간 음성 생성과 장기간 음성 생성에 대해 모델을 테스트하여 많은 실제 세계 사용 사례를 반영했습니다. JaiTTS-v1.0 은 단기간 작업에서 인간 기준 진실 (human ground truth) 인 1.98% 를 넘어서는 1.94% 의 문자 오류율 (CER) 을 달성하여 최첨단 성능을 보였으며, 장기간 작업에서는 인간 기준 진실과 동등한 성능을 발휘했습니다. 인간 평가 판단에서 우리 모델은 상업용 플래그십 제품 대비 쌍대 비교 (pairwise comparisons) 에서 400 회 중 283 회 승리하고 58 회만 패배하여 우위를 점했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0