본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 25. 11:26

확산 기반 TTS에서 급격한 운율 역학 모델링을 위한 적응형 진동 유도 편향 (Adaptive Oscillatory Inductive Bias)

요약

확산 기반 TTS 모델의 급격한 운율 및 피치 변화 모델링 문제를 해결하기 위해 적응형 진동 유도 편향을 도입한 OscillaTTS를 제안합니다. 선형 바이패스를 통해 신호 안정성을 유지하며 제어 가능한 주기적 변조를 구현하여 음성 표현력을 높였습니다.

핵심 포인트

  • 기존 Snake 활성화 함수의 급격한 변화 모델링 한계 극복
  • 적응형 진동 비선형성을 통한 제어 가능한 주기적 변조 구현
  • 선형 바이패스 구성 요소를 통한 신호 안정성 확보
  • LJSpeech 및 Emotional Speech Dataset에서 성능 개선 입증

확산 기반 (Diffusion-based) 텍스트 음성 변환 (TTS) 모델은 음성 품질 면에서 상당한 개선을 이루었습니다. 그러나 표현력이 풍부한 음성에서 급격한 운율적 전이 (prosodic transitions) 및 빠른 피치 변화 (pitch variations)를 모델링하는 것은 여전히 어려운 과제로 남아 있습니다. 기존의 확산 기반 TTS 디코더 (decoders)는 조화 구조 (harmonic structures)를 포착하기 위해 Snake 활성화 함수 (Snake activation function)와 같은 주기적 비선형성 (periodic nonlinearities)을 흔히 사용하지만, 이러한 활성화 함수는 급격한 진폭 (amplitude) 및 주파수 (frequency) 변화를 모델링할 때 적응성이 제한적입니다. 본 논문에서는 확산 기반 TTS 디코더에서 진동 유도 편향 (oscillatory inductive bias)의 역할을 조사하고, 선형 바이패스 (linear bypass) 구성 요소를 통해 신호 안정성을 유지하면서 제어 가능한 주기적 변조 (periodic modulation)를 가능하게 하는 적응형 진동 비선형성 (adaptive oscillatory nonlinearity)을 소개합니다. 우리는 결과물인 TTS 시스템을 OscillaTTS라고 부릅니다. LJSpeech 및 Emotional Speech Dataset에 대한 실험 결과, 객관적 및 주관적 평가 모두에서 일관된 개선을 보여주었으며, 이는 표현력이 풍부한 운율 역학 (prosodic dynamics) 모델링이 향상되었음을 나타냅니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0