조음 음소 인식 (Articulatory Phoneme Recognition)을 이용한 음성 조음 합성 (Speech Articulation
요약
본 논문은 조음 음성 합성의 품질을 평가하기 위해 음소 인식(Phoneme Recognition)을 대리 지표로 사용하는 새로운 방법론을 제안합니다. 기존의 점별 거리 지표가 포착하지 못하는 미세한 조음 위치의 차이를 음소 인식을 통해 더 정확하게 평가할 수 있음을 RT-MRI 데이터셋 실험을 통해 입증했습니다.
핵심 포인트
- 조음 음성 합성의 품질 평가를 위한 새로운 대리 지표로 음소 인식 제안
- 기존 거리 기반 지표의 한계인 미세한 조음 위치 차이 포착 문제 해결
- RT-MRI 데이터셋을 활용한 음향 및 조음 특징 기반 신경망 학습
- 제안된 방식이 음성학적으로 풍부한 정보를 제공하며 합성 모델 평가에 유용함을 확인
최근 머신러닝 (Machine Learning)의 발전과 조음 데이터셋 (Articulatory Datasets)의 가용성 덕분에, 조음 음성 합성 (Articulatory Speech Synthesis)의 주요 과제인 음소 시퀀스 (Phonetic Sequences)에 기반한 성도 합성 (Vocal Tract Synthesis)이 가능해졌습니다. 하지만 품질 평가 (Quality Assessment)에는 더 나은 정의가 필요합니다. 일반적으로 생성 모델 (Generative Models)의 순위를 매기는 것은 주관성 때문에 까다롭습니다. 또한, 조음 합성 (Articulatory Synthesis)은 성도 해부학 (Vocal Tract Anatomy) 및 음향학 (Acoustics)에 대한 전문 지식이 필요하다는 추가적인 어려움이 있습니다. 이 문제를 해결하기 위해, 본 논문은 음소 인식 (Phoneme Recognition)을 대리 지표 (Proxy)로 사용하여 음성 조음 합성 (Speech Articulation Synthesis)을 평가할 것을 제안합니다. 우리의 가설은 조음 특징 (Articulatory Features)을 사용한 음소 인식이 기존의 지표(예: 점별 거리 지표 (Point-wise Distance Metrics))가 포착하지 못하는 정확한 조음 위치 (Places of Articulation)와 같은 음소 생성의 미세한 차이를 더 잘 포착한다는 것입니다. 우리는 단일 화자의 RT-MRI 데이터셋에서 추출한 음향 (Acoustic) 및 조음 특징 (Articulatory Features)을 사용하여 신경망 (Neural Network)을 학습시킵니다. 그런 다음, 서로 다른 합성된 조음 특징 (Synthetic Articulatory Features)으로 모델을 테스트할 때의 인식 성능을 비교합니다. 우리의 결과는 우리가 제안하는 조음 특징 세트가 음성학적으로 풍부하며, 음성 조음 합성 (Speech Articulation Synthesis)의 추가적인 차원을 탐구하는 데 도움이 된다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기