arXiv논문2026. 06. 10. 11:16

자기지도 표현(Self-Supervised Representations)과 학습된 동적 계획법(Learned Dynamic

요약

MMS 모델과 자기지도 음소 경계 탐지기를 결합하여 다국어 단어 수준 강제 정렬을 수행하는 새로운 방법을 제안합니다. 학습된 동적 계획법을 통해 단어 경계를 추론하며, 기존 MFA 및 MMS 기반 방식보다 뛰어난 성능을 입증했습니다.

핵심 포인트

정렬 인코더와 학습된 정렬 디코더를 통한 다국어 정렬 방식 제안
MMS와 UnSupSeg 표현을 통합하여 단어 경계 확률 추정
TIMIT 및 Buckeye 데이터셋에서 기존 방식 대비 우수한 성능 기록
미학습 언어에서도 높은 성능을 보여 1,100개 이상의 언어로 확장 가능성 확인

우리는 정렬 인코더(alignment encoder)와 학습된 정렬 디코더(alignment decoder)로 구성된 정확한 다국어 단어 수준 강제 정렬(word-level forced alignment) 방법을 제시합니다. 인코더는 두 가지 표현(representation)을 통합합니다: 하나는 Massively Multilingual Speech (MMS) 모델로부터의 것이고, 다른 하나는 자기지도 음소 경계 탐지기(self-supervised phoneme boundary detector, UnSupSeg)로부터의 것입니다. 인코더는 이들을 융합하고 긴 시간적 문맥(temporal contexts)에 걸쳐 단어 경계 확률(word-boundary probabilities)을 추정하는 법을 학습합니다. 정렬 디코더는 MMS 및 UnSupSeg 표현에 대한 분절 특징(segmental features)과 인코더 출력을 결합하여 최종 단어 경계를 추론하는 학습된 동적 계획법(learned dynamic programming)입니다. TIMIT 및 Buckeye 데이터셋에서 반복적으로 학습된 제안된 방식은 두 데이터셋 모두에서 Montreal Forced Aligner (MFA) 및 MMS 기반 정렬보다 뛰어난 성능을 보입니다. 학습되지 않은 언어(Dutch, German, Hebrew)에서도 제안된 모델은 기존 정렬 방식보다 일관되게 우수하거나 대등한 성능을 달성하였으며, 이는 추가 학습 없이도 MMS가 지원하는 1100개 이상의 언어로 확장될 수 있는 잠재력을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

자기지도 표현(Self-Supervised Representations)과 학습된 동적 계획법(Learned Dynamic

요약

핵심 포인트

댓글