텍스트 음성 변환(TTS) 모델에서의 결합 가능한 감정 조종(Emotion Steering)에 대한 기하학적 관점

기존 연구들이 하이브리드 텍스트 음성 변환(text-to-speech, TTS) 시스템에서의 감정 제어를 탐구해 왔으나, 이러한 모듈들의 기하학적 특성과 그것이 조종 가능성(steerability)에 미치는 영향에 대해서는 여전히 이해가 부족한 상태입니다. 본 연구에서는 혼합 감정 음성 합성(mixed emotion speech synthesis)을 위한 활성화 조종(activation steering) 지점으로서 음성 언어 모델(speech language model, SLM)과 조건부 흐름 매칭(conditional flow-matching, CFM) 모듈을 비교 분석한 첫 번째 연구를 제시합니다. 우리는 먼저 선형 프로빙(linear probing)과 국소 내재적 차원(local intrinsic dimensionality, LID)을 사용하여 감정 표현(emotion representations)의 특성을 규명한 후, 혼합 감정 합성을 위한 단일 지점 및 공동 조종(joint steering)을 평가합니다. 연구 결과, SLM은 화자-감정 분리(speaker--emotion disentanglement)가 강력한 깨끗하고 저차원적인 감정 특화 부분 공간(subspace)을 제공하는 반면, CFM은 화자-감정 얽힘(speaker--emotion entanglement)으로 인해 화자 간 일반화(cross-speaker generalization) 성능이 저하됨을 보여줍니다. 공동 조종은 감정 강도를 높이지만, 분포 내(in-distribution) 데이터에서 비례 제어(proportional control)와 음성 품질을 저하시킵니다. 이러한 발견은 하이브리드 TTS 시스템에서의 다중 지점 활성화 조종(multi-site activation steering)을 위한 실질적인 지침을 제공하며, 제어 가능한 음성 생성에서 표현 기하학(representation geometry)의 중요성을 강조합니다.

Insights

텍스트 음성 변환(TTS) 모델에서의 결합 가능한 감정 조종(Emotion Steering)에 대한 기하학적 관점

요약

핵심 포인트

댓글

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화