arXiv논문2026. 06. 30. 11:15

wav2VOT: wav2vec2를 이용한 음성 개시 시간(Voice Onset Time), 폐쇄 지속 시간(Closure Duration) 및

요약

wav2vec2 모델을 활용하여 음성 개시 시간, 폐쇄 지속 시간 등을 자동으로 추정하는 wav2VOT 도구를 소개합니다. 미세 조정을 통해 높은 정확도를 입증하였으며, 대규모 음성 모델이 음성학적 주석 작업에 효과적으로 활용될 수 있음을 보여줍니다.

핵심 포인트

wav2vec2 기반의 자동 음성학적 주석 도구 wav2VOT 제안
음성 개시 시간 및 폐쇄 지속 시간의 자동 추정 가능성 입증
미세 조정을 통해 미학습 데이터셋에서도 높은 정확도 달성
대규모 음성 모델의 음성학 연구 파이프라인 활용 가치 확인

음성 주석(Speech annotation)을 위한 자동화 도구들이 현재 음성학 연구 파이프라인 내에서 흔히 사용되고 있지만, 많은 작업들이 정확한 수행을 위해 상당한 수동 수정이나 학습 세트(Training sets)를 필요로 합니다. 동시에, wav2vec2와 같은 대규모 음성 모델(Large speech models)이 음성 분류(Speech classification) 작업에서 우수한 성능을 보이는 것으로 나타남에 따라, 이러한 모델들을 음성학적 주석(Phonetic annotation) 작업에 어떻게 적용할 수 있을지에 대한 의문이 제기되고 있습니다. 우리는 wav2vec2를 사용하여 음성 개시 시간(Voice onset time), 폐쇄 지속 시간(Closure duration), 그리고 파열 실현(Burst realisation)을 자동으로 추정하는 도구인 wav2VOT를 소개합니다. 우리는 wav2VOT가 학습되지 않은 데이터셋(Unseen datasets)에서 현재의 접근 방식들과 유사한 성능을 보이며, 미세 조정(Fine-tuning)을 통해 높은 정확도로 추정할 수 있음을 입증합니다. wav2VOT 예측에 대한 분석은 폐쇄음의 유성음화(Stop voicing) 및 조음 위치(Place of articulation) 전반에 걸쳐 높은 충실도(Fidelity)를 보여줍니다. 이러한 결과는 대규모 음성 모델이 정확한 주석을 생성할 수 있음을 입증하며, 음성학 연구 파이프라인 내에서 도구로서 대규모 음성 모델을 탐색해야 할 동기를 더욱 부여합니다.

AI 자동 생성 콘텐츠

원문 바로가기

wav2VOT: wav2vec2를 이용한 음성 개시 시간(Voice Onset Time), 폐쇄 지속 시간(Closure Duration) 및

요약

핵심 포인트

댓글