ImmersiveTTS: 멀티모달 Diffusion Transformer와 도메인 특화 표현 정렬을 이용한 환경 인지형 텍스트 음성 변환
요약
ImmersiveTTS는 멀티모달 Diffusion Transformer를 활용하여 환경 맥락에 자연스럽게 통합된 음성을 생성하는 모델입니다. 음성과 환경 오디오의 차이를 극복하기 위해 도메인 특화 표현 정렬 기술을 도입하여 자연스러움과 명료도를 높였습니다.
핵심 포인트
- 멀티모달 Diffusion Transformer 기반의 환경 인지형 TTS 제안
- 공동 어텐션을 통한 전사 데이터와 환경 맥락의 융합
- 도메인 특화 표현 정렬을 통한 의미론적 일관성 향상
- 기존 방식 대비 높은 자연스러움 및 오디오 충실도 달성
텍스트 가이드 오디오 생성(text-guided audio generation) 분야의 최근 발전은 효과음, 음성, 음악을 포함한 다양한 영역에서 유망한 결과를 보여주었습니다. 그러나 음성(speech)과 환경 오디오(environmental audio)는 음향 패턴과 시간적 역학(temporal dynamics) 측면에서 본질적인 차이가 존재하기 때문에, 이 둘을 공동으로 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 교차 모달 상호작용(cross-modal interactions)을 명시적으로 모델링함으로써 환경 맥락(environmental contexts) 내에 자연스럽게 통합된 음성을 생성하는 환경 인지형 텍스트 음성 변환 (TTS) 모델인 ImmersiveTTS를 제안합니다. 우리의 모델은 멀티모달 Diffusion Transformer를 기반으로 구축되었으며, 공동 어텐션(joint attention)을 통해 전사(transcript)와 정렬된 음성 잠재 표현(speech latent)과 텍스트 조건부 환경 맥락(text-conditioned environmental context)을 융합합니다. 의미론적 일관성(semantic consistency)을 향상시키기 위해, 우리는 음성 및 오디오 인코더로부터 얻은 상호 보완적인 자기 지도 학습(self-supervised) 표현을 활용하여 환경 인지형 TTS에 맞춤화된 도메인 특화 표현 정렬(domain-specific representation alignment) 목적 함수를 도입합니다. 실험 결과, ImmersiveTTS는 객관적 지표와 인간 청취 테스트 모두에서 기존 방식들보다 더 높은 자연스러움(naturalness), 명료도(intelligibility), 그리고 오디오 충실도(audio fidelity)를 달성함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기