sEMG 및 입술 읽기(Lipreading)를 이용한 강건한 무성 음성 합성(Silent Speech Synthesis)을 위한 교차 모달
요약
sEMG와 입술 읽기 신호를 결합하여 무성 음성 합성을 수행하는 새로운 다중 모달 프레임워크를 제안합니다. 학습 중 양식 마스킹 전략을 통해 센서 실패나 신호 저하 상황에서도 강건한 음성 복원이 가능함을 입증했습니다.
핵심 포인트
- sEMG와 입술 읽기 신호의 상호 보완적 통합
- 양식 마스킹을 통한 신호 저하 및 센서 실패 대응
- 단일 양식 대비 단어 오류율(WER) 최대 14%p 감소
- 저비트레이트 및 양식 부재 조건에서의 높은 일반화 성능
무성 음성 인터페이스(Silent Speech Interfaces, SSIs)를 통한 음성 복원은 후두 음성 생성 능력이 손상되었거나 결여된 개인을 위한 유망한 보조 기술로 부상했습니다. 비침습적 SSI 양식(modalities) 중에서 표면 근전도(surface electromyography, sEMG)와 비디오 기반의 입술 읽기(lipreading)는 상호 보완적인 조음 정보를 제공하지만, 연속적인 음성 합성을 위한 이들의 통합은 여전히 충분히 연구되지 않았습니다. 더욱이, 기존의 다중 모달(multimodal) 접근 방식은 양식 저하(modality degradation)나 일시적인 센서 실패에 대한 강건성(robustness)을 거의 다루지 않아, 실제 시나리오에서의 적용 가능성이 제한적입니다. 본 연구에서는 학습 과정 중 양식 마스킹(modality masking)을 통해 sEMG와 입술 읽기 신호를 공동으로 활용하는 마스킹된 다중 모달 음성 합성 프레임워크를 제안합니다. 다중 화자(multispeaker) 설정 하에서, 제안된 방식은 가장 강력한 단일 양식(unimodal) 베이스라인과 비교하여 단어 오류율(word error rate)을 최대 14 퍼센트 포인트(absolute percentage points)까지 감소시킵니다. 실험 결과는 마스킹 전략이 이러한 성능 향상과 저비트레이트(low-bitrate) 조건에서의 강건성에 결정적일 뿐만 아니라, 양식이 부재하는 조건에서도 저하 특화 데이터 증강(degradation-specific data augmentations)보다 더 나은 일반화 성능을 보임을 입증합니다. 음소 수준(Phone-level) 분석을 통해 양식 간의 상호 보완적인 기여를 추가로 확인하였으며, 특히 모음과 특정 자음 그룹에서 강력한 이점이 나타났습니다. 전반적으로, 이러한 발견은 무성 음성 합성을 위한 마스킹된 다중 모달 통합의 효과와 강건성을 입증하지만, 후두 절제술을 받은 화자(laryngectomized speakers)에 대한 적응은 여전히 해결해야 할 연구 과제로 남아 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기