arXiv논문2026. 06. 19. 11:05

PASQA: 악센트 오류가 포함된 합성 음성으로 학습된 고저 악센트 중심 음성 품질 평가 모델

요약

고저 악센트 오류를 정밀하게 평가하기 위한 새로운 음성 품질 평가 모델 PASQA를 제안합니다. 자기지도 학습과 악센트 제어 가능한 TTS 데이터셋을 활용하여 기존 모델이 놓치기 쉬운 국소적 악센트 오류를 효과적으로 탐지합니다.

핵심 포인트

고저 악센트 정확성에 특화된 PASQA 모델 제안
악센트 제어 가능한 TTS를 통한 통제된 오류 데이터셋 구축
자기지도 학습 및 랭킹 손실을 통한 높은 순위 정확도 달성
인간의 악센트 정확성 판단과 높은 일치도 확인

기존의 평균 의견 점수 (MOS) 예측 모델들은 일반적으로 발화 수준의 자연스러움 MOS를 예측하며, 국소적인 고저 악센트 (pitch-accent) 오류에는 민감하지 않을 수 있습니다. 우리는 고저 악센트의 정확성을 명시적으로 목표로 하는 PASQA (Pitch-Accent-focused Speech Quality Assessment)를 제안합니다. 모델을 학습시키기 위해, 우리는 악센트 제어 가능한 텍el-to-speech (TTS) 시스템을 사용하여 악센트 패턴을 변경함으로써 통제된 일본어 악센트 오류 데이터셋을 구축하고, 악센트 오류율로부터 의사 악센트 품질 점수 (pseudo accent-quality score)를 계산합니다. PASQA는 자기지도 학습 (self-supervised) 표현을 기반으로 하며, 모라 조건부 융합 (mora-conditioned fusion), 랭킹 손실 (ranking loss), 보조 악센트 오류 국소화 작업 (auxiliary accent-error localization task), 그리고 화자 불변 학습 (speaker-invariant training)을 채택합니다. 실험 결과, 기존 모델들은 악센트 오류 심각도에 따른 순위를 보존하는 데 실패하는 반면, PASQA는 학습된 화자와 학습되지 않은 화자 모두에서 높은 순위 정확도를 달성함을 보여줍니다. 나아가, PASQA는 인간의 악센트 정확성 판단과 더 높은 일치도를 보입니다. 코드는 https://github.com/lycorp-jp/PASQA 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

PASQA: 악센트 오류가 포함된 합성 음성으로 학습된 고저 악센트 중심 음성 품질 평가 모델

요약

핵심 포인트

댓글