조음 음소 인식 (Articulatory Phoneme Recognition)을 이용한 음성 조음 합성 (Speech Articulation

최근 머신러닝 (Machine Learning)의 발전과 조음 데이터셋 (Articulatory Datasets)의 가용성 덕분에, 조음 음성 합성 (Articulatory Speech Synthesis)의 주요 과제인 음소 시퀀스 (Phonetic Sequences)에 기반한 성도 합성 (Vocal Tract Synthesis)이 가능해졌습니다. 하지만 품질 평가 (Quality Assessment)에는 더 나은 정의가 필요합니다. 일반적으로 생성 모델 (Generative Models)의 순위를 매기는 것은 주관성 때문에 까다롭습니다. 또한, 조음 합성 (Articulatory Synthesis)은 성도 해부학 (Vocal Tract Anatomy) 및 음향학 (Acoustics)에 대한 전문 지식이 필요하다는 추가적인 어려움이 있습니다. 이 문제를 해결하기 위해, 본 논문은 음소 인식 (Phoneme Recognition)을 대리 지표 (Proxy)로 사용하여 음성 조음 합성 (Speech Articulation Synthesis)을 평가할 것을 제안합니다. 우리의 가설은 조음 특징 (Articulatory Features)을 사용한 음소 인식이 기존의 지표(예: 점별 거리 지표 (Point-wise Distance Metrics))가 포착하지 못하는 정확한 조음 위치 (Places of Articulation)와 같은 음소 생성의 미세한 차이를 더 잘 포착한다는 것입니다. 우리는 단일 화자의 RT-MRI 데이터셋에서 추출한 음향 (Acoustic) 및 조음 특징 (Articulatory Features)을 사용하여 신경망 (Neural Network)을 학습시킵니다. 그런 다음, 서로 다른 합성된 조음 특징 (Synthetic Articulatory Features)으로 모델을 테스트할 때의 인식 성능을 비교합니다. 우리의 결과는 우리가 제안하는 조음 특징 세트가 음성학적으로 풍부하며, 음성 조음 합성 (Speech Articulation Synthesis)의 추가적인 차원을 탐구하는 데 도움이 된다는 것을 보여줍니다.

Insights

조음 음소 인식 (Articulatory Phoneme Recognition)을 이용한 음성 조음 합성 (Speech Articulation

요약

핵심 포인트

댓글

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

OpenAI, GPT‑Live 공개

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

OpenAI, GPT‑Live 공개