arXiv논문2026. 06. 15. 08:26

사전 학습된 자기지도 학습 음성 모델은 보지 못한 자음을 인식할 수 있다

요약

사전 학습된 자기지도 학습(SSL) 음성 모델이 코이산 언어의 클릭 자음과 같은 희귀 음소를 얼마나 잘 인식하는지 연구했습니다. Wav2Vec2와 HuBERT 모델을 미세 조정하여 실험한 결과, SSL이 희귀 음소에 대해서도 뛰어난 일반화 성능을 보임을 확인했습니다.

핵심 포인트

자기지도 학습 모델의 저자원 언어 및 희귀 음소 인식 능력 검증
Wav2Vec2 및 HuBERT 모델을 활용한 클릭 자음 미세 조정 비교
미세 조정된 모델이 비클릭 소리보다 클릭 소리를 더 정확히 인식
SSL 방식이 희귀 음소를 포함한 음성 전반의 일반화에 기여함

현대의 사전 학습된 자기지도 학습 (self-supervised) 자동 음성 인식 (ASR) 모델들은 음성을 문맥화된 표현 (contextualized representations)으로 인코딩하기 위해 대규모 오디오 데이터로 학습됩니다. 그러나 이들의 학습 데이터는 고자원 언어 (high-resource languages)에 심하게 치우쳐 있으며, 저자원 언어 (low-resource languages)의 데이터는 거의 없어, 코이산 (Khoisan) 언어에서 주로 발견되는 클릭 자음 (click consonants)과 같이 유형론적으로 흔치 않은 음성 소리가 과소 대표될 수 있다는 우려를 낳고 있습니다. 이는 우리의 핵심 연구 질문으로 이어집니다: 이 모델들이 클릭 자음을 다른 음성 소리만큼 정확하게 인식할 수 있는가? 이 질문을 해결하기 위해, 우리는 클릭 자음이 풍부한 두 가지 코이산 언어 (G|ui 및 West !Xoon)의 데이터를 사용하여 사전 학습된 자기지도 학습 음성 모델 (Wav2Vec2 및 HuBERT)을 미세 조정 (fine-tune)하고 비교합니다. 우리의 결과는 미세 조정된 모델들이 비클릭 (non-clicks) 소리보다 클릭 소리를 일관되게 더 정확하게 인식한다는 것을 보여주며, 이는 자기지도 학습 (self-supervision)이 희귀한 음소 (phonemes)를 포함한 인간의 음성 소리 전반에 걸쳐 일반화 (generalization)를 가능하게 함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

사전 학습된 자기지도 학습 음성 모델은 보지 못한 자음을 인식할 수 있다

요약

핵심 포인트

댓글