UniSAE: 이산적 음소 후험 확률도(DPPG) 모델링을 통한 화자, 감정 및 저수준 콘텐츠의 통합 음성 속성 편집

음성 편집(Speech editing)은 나머지 음성을 보존하면서 발화의 특정 부분만을 수정하는 것을 목표로 합니다. 기존 방식들은 주로 단어 수준의 콘텐츠 수정에 집중하며, 일반적으로 콘텐츠, 화자, 감정 편집을 별개의 작업으로 취급하여 편집의 세밀함(granularity)과 유연성을 모두 제한합니다. 우리는 단일 아키텍처 내에서 서브-음소(sub-phoneme)부터 단어 수준까지 결합 가능한 화자, 감정 및 콘텐츠 편집을 지원하는 통합 음성 속성 편집 프레임워크인 UniSAE를 제안합니다. UniSAE는 음성 콘텐츠를 음소 정체성, 발음 변이 및 지속 시간을 인코딩하는 이산 토큰(discrete tokens)으로 분해하는 이산적 음소 후험 확률도(Discrete Phonetic PosteriorGram, DPPG) 표현을 도입하여, 직접적인 음소 및 서브-음소 수준의 편집을 가능하게 합니다. 더 높은 수준의 수정을 위해, 자기회귀(autoregressive) 콘텐츠 트랜스포머(transformer)가 단어 수준의 콘텐츠 편집을 위한 편집된 DPPG 시퀀스를 예측합니다. 편집된 시퀀스는 분리된(disentangled) 화자 및 감정 표현을 조건으로 하여 확산 기반(diffusion-based) 음향 디코더(acoustic decoder)를 통해 음성으로 렌더링됩니다. 실험 결과, 제안된 통합 프레임워크가 정밀한 화자 및 감정 제어, 다양한 세밀함에서의 콘텐츠 편집, 그리고 단일 프레임워크 내에서 세 가지 속성의 공동 수정을 지원함을 입증하였습니다.

Insights

UniSAE: 이산적 음소 후험 확률도(DPPG) 모델링을 통한 화자, 감정 및 저수준 콘텐츠의 통합 음성 속성 편집

요약

핵심 포인트

댓글

WIDER-FAIR: 공정성 평가를 위한 WIDER-FACE 데이터셋의 주석 버전

비선형성 인지 LoRA: 저차원 제약 하에서의 구조적 게이트 적응 (Nonlinearity-Aware LoRA: Structured Gate

TalentCLEF 2026 개요: 인적 자본 관리(Human Capital Management)를 위한 기술 및 직무 타이틀 인텔리전스

자연스러움이 항상 적절한가? TTS 평가를 위한 다양한 도메인별 자연스러움(Naturalness) 및 적절성(Appropriateness) 조사

WIDER-FAIR: 공정성 평가를 위한 WIDER-FACE 데이터셋의 주석 버전

비선형성 인지 LoRA: 저차원 제약 하에서의 구조적 게이트 적응 (Nonlinearity-Aware LoRA: Structured Gate

TalentCLEF 2026 개요: 인적 자본 관리(Human Capital Management)를 위한 기술 및 직무 타이틀 인텔리전스

자연스러움이 항상 적절한가? TTS 평가를 위한 다양한 도메인별 자연스러움(Naturalness) 및 적절성(Appropriateness) 조사