TTS-PRISM: 세밀한 진단을 위한 지각적 추론 및 해석 가능한 음성 모델

생성형 텍스트-투-스피치 (TTS) 모델이 인간 수준의 품질에 근접함에 따라, 단일 지표는 세밀한 음향 결함을 진단하거나 지각적 붕괴를 설명하는 데 실패합니다. 이를 해결하기 위해 우리는 중국어에 대한 다차원 진단 프레임워크인 TTS-PRISM 을 제안합니다. 먼저, 안정성부터 고급 표현력까지 아우르는 12 차원 스키마를 수립합니다. 둘째, 적대적 교란 (adversarial perturbations) 과 전문가 앵커 (expert anchors) 를 활용한 표적 합성 파이프라인을 설계하여 고품질 진단 데이터셋을 구축합니다. 셋째, 스키마 기반의 지시 학습 (instruction tuning) 을 통해 명시적인 점수 기준과 추론을 효율적인 엔드투엔드 모델에 내장합니다. 1,600 샘플 규모의 골드 테스트 세트 (Gold Test Set) 에서 수행한 실험 결과, TTS-PRISM 은 일반화 모델보다 인간 정렬 (human alignment) 에서 우수한 성능을 보였습니다. 여섯 가지 TTS 패러다임에 대한 프로파일링을 통해 세밀한 능력 차이를 드러내는 직관적인 진단 플래그를 확립했습니다. TTS-PRISM 은 오픈소스로 제공되며, 코드와 체크포인트는 https://github.com/xiaomi-research/tts-prism 에서 다운로드할 수 있습니다.

Insights

TTS-PRISM: 세밀한 진단을 위한 지각적 추론 및 해석 가능한 음성 모델

요약

핵심 포인트

댓글

Claude Code의 effort levels를 코드 리뷰로 비교해 보았다

Opus 5에서 메인 모델을 고정하고, 모델 선택을 서브 에이전트 측으로 위임했다

기업형 AI의 폐쇄적인 장벽이 무너지고 있다: 왜 로컬 우선(Local-First) 오픈 소스 AI가 승리하는가

대두, 금요일 소폭 조정세로 시작

Claude Code의 effort levels를 코드 리뷰로 비교해 보았다

Opus 5에서 메인 모델을 고정하고, 모델 선택을 서브 에이전트 측으로 위임했다

기업형 AI의 폐쇄적인 장벽이 무너지고 있다: 왜 로컬 우선(Local-First) 오픈 소스 AI가 승리하는가

대두, 금요일 소폭 조정세로 시작