arXiv논문2026. 05. 27. 12:20

PilotTTS: 경쟁력 있는 음성 합성을 위한 규율 있는 모듈형 레시피

요약

PilotTTS는 미니멀리스트 아키텍처와 엄격한 데이터 엔지니어링을 통해 적은 데이터로도 고성능을 내는 경량 자기회귀 TTS 시스템입니다. Q-Former 기반 컨디셔닝을 통해 화자 정체성과 스타일을 분리하며, 제로샷 음성 복제 및 다양한 감정 합성을 지원합니다.

핵심 포인트

20만 시간의 데이터와 오픈 소스 도구만으로 고성능 달성
Q-Former 기반의 컴팩트한 모델 아키텍처 채택
제로샷 음성 복제 및 11개 감정 합성 지원
Seed-TTS 벤치마크에서 낮은 오류율과 높은 화자 유사도 기록
전체 파이프라인 레시피 및 사전 학습 가중치 공개

최첨단 텍el-to-speech (TTS) 시스템을 구축하는 것은 일반적으로 수백만 시간의 독점 데이터와 복잡한 다단계 아키텍처 (multi-stage architectures)를 요구하며, 이는 자원이 제한된 연구 팀에게 상당한 장벽을 형성합니다. 본 보고서에서 우리는 미니멀리스트 아키텍처 (minimalist architecture)와 엄격한 데이터 엔지니어링 (data engineering)을 통해 경쟁력 있는 성능을 달성하는 경량 자기회귀 (autoregressive) TTS 시스템인 PilotTTS를 선보입니다. PilotTTS는 전적으로 오픈 소스 도구로 처리된 단 20만 시간의 데이터로 학습되었습니다. 구체적인 기여 사항은 다음과 같습니다: (1) 품질 평가, 레이블 주석 (label annotation), 필터링을 아우르는 재현 가능한 다단계 데이터 처리 파이프라인, 그리고 (2) 교차 샘플 쌍 학습 (cross-sample paired training)을 통해 화자의 정체성 (speaker identity)을 말하기 스타일 (speaking style)로부터 분리하기 위해 Q-Former 기반의 컨디셔닝 (conditioning)을 채택한 컴팩트한 모델 아키텍처입니다. 통합된 프레임워크 내에서 PilotTTS는 제로샷 음성 복제 (zero-shot voice cloning), 감정 합성 (11개 카테고리), 준언어적 합성 (paralinguistic synthesis, 4개 카테고리), 그리고 중국어 방언 합성 (14개 방언)을 지원합니다. Seed-TTS Eval 벤치마크에서 PilotTTS는 test-en에서 1.50%의 가장 낮은 단어 오류율 (WER)을, test-zh에서 0.87%의 음절 오류율 (CER)을 기록하였으며, 두 테스트 세트 모두에서 가장 높은 화자 유사도 (speaker similarity, 각각 0.862 및 0.815)를 달성하여 훨씬 더 큰 데이터셋으로 학습된 시스템들을 능가했습니다. 우리는 전체 데이터 파이프라인 레시피, 사전 학습된 가중치 (pretrained weights) 및 코드를 https://github.com/AMAPVOICE/PilotTTS 에서 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

PilotTTS: 경쟁력 있는 음성 합성을 위한 규율 있는 모듈형 레시피

요약

핵심 포인트

댓글