다국어 TTS의 음운론적 정보를 반영한 평가를 향하여
요약
다국어 TTS 시스템의 음운론적 정확성을 평가하기 위한 분류기 기반 프레임워크를 제안합니다. Meta의 MMS TTS를 활용해 아삼어의 모음 조화 오류를 분석한 결과, 합성 음성이 인간의 음성과 달리 특정 음운 패턴에서 편향을 보임을 확인했습니다.
핵심 포인트
- 기존 MOS 지표가 포착하지 못하는 음운론적 대조 보존 능력 평가
- 인간 음성 데이터를 활용한 TTS 출력 감사(audit) 프레임워크 제안
- 아삼어 모음 조화 테스트를 통해 TTS의 음운론적 편향 발견
- 의도된 음운론과 생성된 음운론 사이의 격차를 측정 가능하게 진단
Neural TTS (신경망 TTS) 시스템은 여러 언어에 걸쳐 자연스럽게 들릴 수 있지만, 자연스러움이 단어를 문법적 형태와 구별하는 음성 대조(sound contrasts)의 보존을 보장하지는 않습니다. MOS와 같은 표준 지표는 이를 테스트하지 못합니다. 우리는 인간의 음성을 벤치마크로 사용하여 언어별 음운 패턴(phonological patterns)에 따라 TTS 출력을 감사(audit)하는 분류기 기반 프레임워크를 제안합니다. Meta의 MMS TTS를 사용하여 아삼어(Assamese)의 전설 설근(ATR) 모음 조화를 테스트한 결과, 인간의 음성으로 학습된 분류기가 최소한의 손실로 합성된 음성으로 전이됨을 보여줍니다. 충실도 감사(faithfulness audit) 결과, [+ATR] 중간 모음이 기저의 [+ATR] 명세에도 불구하고 토큰의 1/3에서 [-ATR]로 실현되는 편향이 나타났으며, 이는 인간의 음성에서는 나타나지 않는 현상입니다. 단어 수준에서 예측된 ATR 레이블은 전사(transcription) 레이블보다 조화를 더 정확하게 분류하며, 이는 의도된 음운론과 생성된 음운론 사이의 격차를 나타냅니다. 이 프레임워크는 작업별 진단 기능을 제공하며, 측정 가능한 음향 단서(acoustic cues)를 가진 다른 음운론적 대조로 일반화될 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기