TargetSEC: 각성도 조건부 잠재 스타일 확산을 통한 플러그 앤 플레이 방식의 야생 환경 음성 감정 변환
요약
TargetSEC는 화자의 정체성과 연속적인 감정을 유지하며 음성 감정을 변환하는 새로운 잠재 확산(Latent Diffusion) 프레임워크입니다. 압축된 잠재 공간에서 작동하여 기존 방식의 품질과 변환율 간의 트레이드오프 문제를 해결했습니다.
핵심 포인트
- 임베딩 기반 잠재 확산 프레임워크 제안
- 화자 정체성 및 연속적 감정 조건 유지
- 압축된 잠재 공간 내 스펙트로그램 확산 수행
- 명시적 시간 모델링 없이도 높은 변환 정확도 달성
- MSP-Podcast 데이터셋 기반 성능 우위 입증
음성 감정 변환 (Speech Emotion Conversion, SEC)은 콘텐츠와 화자의 정체성을 유지하면서 소스 발화의 감정을 타겟 감정으로 변환하는 것을 목표로 합니다. 야생 환경 (in-the-wild) 데이터에서의 SEC는 학습 데이터의 비병렬적 (non-parallel) 특성과 복잡한 실제 음향 환경으로 인해 매우 어렵습니다. 기존의 고정된 지속 시간 (fixed-duration) 방식들은 감정을 효과적으로 변화시키는 데 어려움을 겪거나 (높은 품질, 낮은 변환율), 음성의 자연스러움을 저하시키는 (낮은 품질, 높은 변환율) 문제를 보입니다. 우리는 화자의 정체성과 연속적인 감정을 조건으로 하여 감정에 집중된 스타일 임베딩 (style embeddings)을 생성하는 임베딩 기반 잠재 확산 (latent diffusion) 프레임워크인 TargetSEC를 제안합니다. 스펙트로그램 (spectrogram) 상에서 확산을 수행하는 방법들과 달리, TargetSEC는 압축된 잠재 공간 (latent space)에서 작동합니다. MSP-Podcast 데이터셋을 활용한 실험 결과, TargetSEC는 높은 음성 품질을 유지하면서도 변환 정확도 측면에서 현재의 비지속 시간 (non-duration) 베이스라인 모델들을 능가하였으며, 명시적인 시간 모델링 (temporal modeling) 없이도 지속 시간 예측 (duration-prediction) 시스템에 필적하는 성능을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기