텍스트 음성 변환(TTS) 모델에서의 결합 가능한 감정 조종(Emotion Steering)에 대한 기하학적 관점
요약
본 연구는 TTS 시스템에서 감정 조종(Emotion Steering)의 기하학적 특성을 분석합니다. SLM과 CFM 모듈의 감정 표현 특성을 비교하여, 화자-감정 분리 성능과 조종 가능성에 대한 실질적인 지침을 제시합니다.
핵심 포인트
- SLM은 화자-감정 분리가 뛰어난 저차원 감정 부분 공간을 제공함
- CFM은 화자-감정 얽힘으로 인해 화자 간 일반화 성능이 낮음
- 공동 조종은 감정 강도는 높이나 음성 품질을 저하시킬 수 있음
- 제어 가능한 음성 생성에서 표현 기하학의 중요성 입증
기존 연구들이 하이브리드 텍스트 음성 변환(text-to-speech, TTS) 시스템에서의 감정 제어를 탐구해 왔으나, 이러한 모듈들의 기하학적 특성과 그것이 조종 가능성(steerability)에 미치는 영향에 대해서는 여전히 이해가 부족한 상태입니다. 본 연구에서는 혼합 감정 음성 합성(mixed emotion speech synthesis)을 위한 활성화 조종(activation steering) 지점으로서 음성 언어 모델(speech language model, SLM)과 조건부 흐름 매칭(conditional flow-matching, CFM) 모듈을 비교 분석한 첫 번째 연구를 제시합니다. 우리는 먼저 선형 프로빙(linear probing)과 국소 내재적 차원(local intrinsic dimensionality, LID)을 사용하여 감정 표현(emotion representations)의 특성을 규명한 후, 혼합 감정 합성을 위한 단일 지점 및 공동 조종(joint steering)을 평가합니다. 연구 결과, SLM은 화자-감정 분리(speaker--emotion disentanglement)가 강력한 깨끗하고 저차원적인 감정 특화 부분 공간(subspace)을 제공하는 반면, CFM은 화자-감정 얽힘(speaker--emotion entanglement)으로 인해 화자 간 일반화(cross-speaker generalization) 성능이 저하됨을 보여줍니다. 공동 조종은 감정 강도를 높이지만, 분포 내(in-distribution) 데이터에서 비례 제어(proportional control)와 음성 품질을 저하시킵니다. 이러한 발견은 하이브리드 TTS 시스템에서의 다중 지점 활성화 조종(multi-site activation steering)을 위한 실질적인 지침을 제공하며, 제어 가능한 음성 생성에서 표현 기하학(representation geometry)의 중요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기