Mandarin 단음절어의 음성 단어 지속 시간 및 피치 예측을 위한 임베딩 활용

대화형 발화(conversational speech)에서 Mandarin 단어의 시간 정규화된 f0 윤곽선(contours)은 문맥화된 임베딩(contextualized embeddings, CEs)으로부터 부분적으로 예측 가능하다는 것이 밝혀졌습니다. 본 연구는 Mandarin 자발적 발화 코퍼스에서 추출한 7,470개의 Mandarin 단음절 CV(자음-모음) 토큰을 대상으로, CEs가 음성 단어의 지속 시간(duration) 또한 예측할 수 있는지 조사합니다. 우리는 CEs가 유형(type) 수준뿐만 아니라 개별 토큰(token) 수준에서도 우연 수준(chance level)을 넘어 지속 시간을 예측할 수 있음을 보여주며, 이는 유형별(type-wise) 및 토큰별(token-wise) 순열 베이스라인(permutation baselines)을 통해 얻은 결과로 입증됩니다. 또한, 예측된 지속 시간이 [0,1]로 정규화된 시간에서의 예측된 f0 윤곽선을 밀리초(ms) 시간 척도의 윤곽선으로 역변환(back-transform)할 수 있을 만큼 충분히 정밀하다는 것을 보여줍니다. 결과적으로 예측된 윤곽선은 경험적 윤곽선(empirical contours)에 근사하며, 순열 베이스라인(permutation baseline)보다 우수한 성능을 보입니다.

Insights

Mandarin 단음절어의 음성 단어 지속 시간 및 피치 예측을 위한 임베딩 활용

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실