Mandarin 단음절어의 음성 단어 지속 시간 및 피치 예측을 위한 임베딩 활용
요약
Mandarin 단음절어의 음성 지속 시간과 f0 윤곽선을 예측하기 위해 문맥화된 임베딩(CEs)을 활용하는 연구입니다. CEs가 유형 및 토큰 수준 모두에서 지속 시간을 효과적으로 예측하며, 예측된 윤곽선이 실제 경험적 윤곽선에 근사함을 입증했습니다.
핵심 포인트
- 문맥화된 임베딩(CEs)을 통한 Mandarin 음성 특징 예측 가능성 확인
- 단어 지속 시간(duration)의 유형 및 토큰 수준 예측 성공
- 예측된 f0 윤곽선이 실제 음성 데이터와 높은 유사성을 보임
- 순열 베이스라인 대비 우수한 예측 성능 입증
대화형 발화(conversational speech)에서 Mandarin 단어의 시간 정규화된 f0 윤곽선(contours)은 문맥화된 임베딩(contextualized embeddings, CEs)으로부터 부분적으로 예측 가능하다는 것이 밝혀졌습니다. 본 연구는 Mandarin 자발적 발화 코퍼스에서 추출한 7,470개의 Mandarin 단음절 CV(자음-모음) 토큰을 대상으로, CEs가 음성 단어의 지속 시간(duration) 또한 예측할 수 있는지 조사합니다. 우리는 CEs가 유형(type) 수준뿐만 아니라 개별 토큰(token) 수준에서도 우연 수준(chance level)을 넘어 지속 시간을 예측할 수 있음을 보여주며, 이는 유형별(type-wise) 및 토큰별(token-wise) 순열 베이스라인(permutation baselines)을 통해 얻은 결과로 입증됩니다. 또한, 예측된 지속 시간이 [0,1]로 정규화된 시간에서의 예측된 f0 윤곽선을 밀리초(ms) 시간 척도의 윤곽선으로 역변환(back-transform)할 수 있을 만큼 충분히 정밀하다는 것을 보여줍니다. 결과적으로 예측된 윤곽선은 경험적 윤곽선(empirical contours)에 근사하며, 순열 베이스라인(permutation baseline)보다 우수한 성능을 보입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기