arXiv논문2026. 06. 19. 11:50

이산 음성 토큰의 놀람도(Surprisal)를 이용한 경량 발음 평가

요약

원어민 음성 데이터만으로 학습 가능한 비지도 방식의 경량 발음 평가 프레임워크를 제안합니다. 이산 음성 토큰의 놀람도(Surprisal)와 정렬 특징을 결합하여 지도 학습 없이도 높은 성능의 발음 평가를 구현했습니다.

핵심 포인트

원어민 음성 자원만 사용하는 비지도/경량 학습 방식 제안
이산 음성 토큰의 놀람도를 활용해 음소 배열론적 편차 측정
Text2DUnit-DTW 모듈을 통한 오류 민감 특징 도출
SpeechOcean762 데이터셋에서 지도 학습에 근접한 성능 달성

자동화된 발음 평가를 학습시키는 것은 종종 수집 비용이 많이 드는 레이블링된 학습자 오류 데이터나 비원어민 코퍼스(non-native corpora)에 의존합니다. 우리는 원어민 음성 자원만으로 학습되며, 비지도 방식(unsupervised)으로 작동하거나 소수의 점수가 매겨진 발화 세트로 가볍게 보정(lightly calibrated)되는 경량 프레임워크를 제안합니다. 추론 시, 학습자의 음성은 자기지도학습(SSL) 인코더와 K-means 코드북(codebook)을 통해 이산화(discretized)됩니다. 원어민 시퀀스로 학습된 토큰 언어 모델(token language model)은 놀람도(surprisal)를 계산하며, 여기서 높은 놀람도는 음소 배열론적 편차(phonotactic deviation)를 나타냅니다. 우리는 참조 텍스트로부터 원어민 토큰 시퀀스를 예측하고 이를 음향 토큰(acoustic tokens)에 정렬하여 오류에 민감한 특징(error-sensitive features)을 도출하는 전사 가이드형 Text2DUnit--DTW 모듈을 추가합니다. 놀람도와 정렬 특징은 단순 회귀(simple regression)를 통해 융합됩니다. SpeechOcean762 데이터셋에서 전사 가이드를 사용했을 때 PCC가 0.60에서 0.66으로 향상되었으며, 이는 지도 학습(supervised) 베이스라인에 근접한 수치입니다. L2-ARCTIC에 대한 교차 데이터셋 평가에서도 일관된 성능 향상을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

이산 음성 토큰의 놀람도(Surprisal)를 이용한 경량 발음 평가

요약

핵심 포인트

댓글