arXiv논문2026. 06. 23. 14:30

롬바드 효과 (Lombard Effect) 합성: TTS에서 음성 명료도 및 발성 노력의 다층적 제어

요약

소음 환경에서 발성 강도를 조절하는 롬바드 효과를 시뮬레이션하는 TTS 모델을 제안합니다. Flow-matching 기반 모델을 통해 발성 노력과 조음을 분리하여 제어하며, 단어 수준의 강조를 통해 음성 명료도를 높일 수 있습니다.

핵심 포인트

롬바드 효과를 모사하여 소음 환경에 적합한 음성 합성 구현
Flow-matching 기반의 발성 노력 및 조음 분리 제어 기술
단어 수준의 강조를 통한 특정 구간 명료도 개선 가능
소음 속 음성 실험을 통해 인간의 명확한 음성 효과 입증

인간은 소음이 심한 환경이나 청각 장애가 있는 청자를 대상으로 말할 때와 같이 어려운 환경에서 더 크고 명확하게 말하는 경향이 있으며, 이를 롬바드 효과 (Lombard effect)라고 합니다. 음성 합성 (Speech synthesis) 시스템에서 이러한 행동을 시뮬레이션하기 위해, 우리는 발성 노력 (vocal effort) 및 조음 (articulation) 의사 라벨 (pseudo-labels)로 학습된 플로우 매칭 (flow-matching) 기반 텍스트 음성 변환 (TTS) 모델을 소개합니다. 제안된 모델은 발성 노력과 조음의 연속적이고 분리된 (disentangled) 제어를 달성하는 동시에, 발화의 특정 구간을 명확하게 하기 위한 단어 수준의 강조 (word-level emphasis)를 가능하게 합니다. 실험 결과, 이러한 제어 메커니즘이 명료도 관련 음향 특징들을 효과적으로 개선함을 보여줍니다. 나아가, 소음 속 음성 (speech-in-noise) 실험을 통해 우리 모델이 소음 조건에서 인간의 명확한 음성 (clear speech)이 제공하는 명료도 이득을 성공적으로 시뮬레이션함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

롬바드 효과 (Lombard Effect) 합성: TTS에서 음성 명료도 및 발성 노력의 다층적 제어

요약

핵심 포인트

댓글