UniSAE: 이산적 음소 후험 확률도(DPPG) 모델링을 통한 화자, 감정 및 저수준 콘텐츠의 통합 음성 속성 편집
요약
UniSAE는 화자, 감정, 콘텐츠를 통합적으로 편집할 수 있는 새로운 음성 속성 편집 프레임워크입니다. DPPG 표현을 도입하여 서브-음소부터 단어 수준까지 정밀한 편집을 지원하며, 확산 기반 디코더를 통해 자연스러운 음성을 생성합니다.
핵심 포인트
- DPPG를 통한 음소 및 서브-음소 수준의 정밀한 콘텐츠 편집 가능
- 화자, 감정, 콘텐츠의 세 가지 속성을 단일 아키텍처에서 통합 수정
- 자기회귀 트랜스포머와 확산 기반 디코더를 결합한 구조
- 기존 방식보다 높은 편집 세밀함과 유연성 제공
음성 편집(Speech editing)은 나머지 음성을 보존하면서 발화의 특정 부분만을 수정하는 것을 목표로 합니다. 기존 방식들은 주로 단어 수준의 콘텐츠 수정에 집중하며, 일반적으로 콘텐츠, 화자, 감정 편집을 별개의 작업으로 취급하여 편집의 세밀함(granularity)과 유연성을 모두 제한합니다. 우리는 단일 아키텍처 내에서 서브-음소(sub-phoneme)부터 단어 수준까지 결합 가능한 화자, 감정 및 콘텐츠 편집을 지원하는 통합 음성 속성 편집 프레임워크인 UniSAE를 제안합니다. UniSAE는 음성 콘텐츠를 음소 정체성, 발음 변이 및 지속 시간을 인코딩하는 이산 토큰(discrete tokens)으로 분해하는 이산적 음소 후험 확률도(Discrete Phonetic PosteriorGram, DPPG) 표현을 도입하여, 직접적인 음소 및 서브-음소 수준의 편집을 가능하게 합니다. 더 높은 수준의 수정을 위해, 자기회귀(autoregressive) 콘텐츠 트랜스포머(transformer)가 단어 수준의 콘텐츠 편집을 위한 편집된 DPPG 시퀀스를 예측합니다. 편집된 시퀀스는 분리된(disentangled) 화자 및 감정 표현을 조건으로 하여 확산 기반(diffusion-based) 음향 디코더(acoustic decoder)를 통해 음성으로 렌더링됩니다. 실험 결과, 제안된 통합 프레임워크가 정밀한 화자 및 감정 제어, 다양한 세밀함에서의 콘텐츠 편집, 그리고 단일 프레임워크 내에서 세 가지 속성의 공동 수정을 지원함을 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기