다국어 TTS의 음운론적 정보를 반영한 평가를 향하여

Neural TTS (신경망 TTS) 시스템은 여러 언어에 걸쳐 자연스럽게 들릴 수 있지만, 자연스러움이 단어를 문법적 형태와 구별하는 음성 대조(sound contrasts)의 보존을 보장하지는 않습니다. MOS와 같은 표준 지표는 이를 테스트하지 못합니다. 우리는 인간의 음성을 벤치마크로 사용하여 언어별 음운 패턴(phonological patterns)에 따라 TTS 출력을 감사(audit)하는 분류기 기반 프레임워크를 제안합니다. Meta의 MMS TTS를 사용하여 아삼어(Assamese)의 전설 설근(ATR) 모음 조화를 테스트한 결과, 인간의 음성으로 학습된 분류기가 최소한의 손실로 합성된 음성으로 전이됨을 보여줍니다. 충실도 감사(faithfulness audit) 결과, [+ATR] 중간 모음이 기저의 [+ATR] 명세에도 불구하고 토큰의 1/3에서 [-ATR]로 실현되는 편향이 나타났으며, 이는 인간의 음성에서는 나타나지 않는 현상입니다. 단어 수준에서 예측된 ATR 레이블은 전사(transcription) 레이블보다 조화를 더 정확하게 분류하며, 이는 의도된 음운론과 생성된 음운론 사이의 격차를 나타냅니다. 이 프레임워크는 작업별 진단 기능을 제공하며, 측정 가능한 음향 단서(acoustic cues)를 가진 다른 음운론적 대조로 일반화될 수 있습니다.

Insights

다국어 TTS의 음운론적 정보를 반영한 평가를 향하여

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실