TTS-PRISM: 세밀한 진단을 위한 지각적 추론 및 해석 가능한 음성 모델
요약
TTS-PRISM은 생성형 텍스트-투-스피치(TTS) 모델의 세밀한 음향 결함을 진단하고 지각적 성능을 해석하기 위해 설계된 다차원 진단 프레임워크입니다. 이 프레임워크는 안정성부터 고급 표현력까지 아우르는 12차원 스키마를 구축하고, 적대적 교란 및 전문가 앵커를 활용하여 고품질의 진단 데이터셋을 생성합니다. 실험 결과, TTS-PRISM은 일반적인 모델보다 인간 정렬 측면에서 우수한 성능을 보이며, 다양한 TTS 패러다임에 대한 직관적인 진단 플래그를 제공합니다.
핵심 포인트
- TTS-PRISM은 단순한 평가 지표를 넘어선 다차원적이고 해석 가능한 음성 모델 진단 프레임워크이다.
- 12차원 스키마와 적대적 교란을 활용하여 TTS 모델의 세밀한 결함(음향, 표현력 등)을 체계적으로 분석한다.
- 지시 학습(instruction tuning)을 통해 복잡한 진단 기준과 추론 과정을 효율적인 엔드투엔드 모델에 통합했다.
- 실험 결과, TTS-PRISM은 다양한 TTS 패러다임에서 일반화된 평가보다 우수한 인간 정렬 성능을 입증했다.
생성형 텍스트-투-스피치 (TTS) 모델이 인간 수준의 품질에 근접함에 따라, 단일 지표는 세밀한 음향 결함을 진단하거나 지각적 붕괴를 설명하는 데 실패합니다. 이를 해결하기 위해 우리는 중국어에 대한 다차원 진단 프레임워크인 TTS-PRISM 을 제안합니다. 먼저, 안정성부터 고급 표현력까지 아우르는 12 차원 스키마를 수립합니다. 둘째, 적대적 교란 (adversarial perturbations) 과 전문가 앵커 (expert anchors) 를 활용한 표적 합성 파이프라인을 설계하여 고품질 진단 데이터셋을 구축합니다. 셋째, 스키마 기반의 지시 학습 (instruction tuning) 을 통해 명시적인 점수 기준과 추론을 효율적인 엔드투엔드 모델에 내장합니다. 1,600 샘플 규모의 골드 테스트 세트 (Gold Test Set) 에서 수행한 실험 결과, TTS-PRISM 은 일반화 모델보다 인간 정렬 (human alignment) 에서 우수한 성능을 보였습니다. 여섯 가지 TTS 패러다임에 대한 프로파일링을 통해 세밀한 능력 차이를 드러내는 직관적인 진단 플래그를 확립했습니다. TTS-PRISM 은 오픈소스로 제공되며, 코드와 체크포인트는 https://github.com/xiaomi-research/tts-prism 에서 다운로드할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기