본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 27. 12:20

PashtoTTS-Bench: 저자원 비라틴 문자 텍스트 음성 변환(TTS)을 위한 자동 스크리닝

요약

저자원 비라틴 문자 언어의 TTS 평가를 위한 새로운 프레임워크 INSV와 벤치마크 PashtoTTS-Bench를 제안합니다. 기존 ASR WER 방식의 한계를 극복하기 위해 명료성, 자연스러움, 스크립트 충실도, 검증을 포함한 자동 스크리닝 지표를 도입했습니다.

핵심 포인트

  • 저자원 언어 TTS 평가를 위한 INSV 프레임워크 제안
  • Pashto 언어 대상의 PashtoTTS-Bench 벤치마크 구현
  • 합성 완료 여부, 스크립트 충실도, 언어 식별 등 다각도 평가
  • OmniVoice auto 모델이 테스트에서 가장 낮은 WER 기록

저자원 비라틴 문자 (non-Latin-script) 언어에 대한 텍스트 음성 변환 (TTS) 평가는 단일 ASR (Automatic Speech Recognition, 자동 음성 인식) 왕복 단어 오류율 (WER, Word Error Rate)에 의존할 경우 실패할 수 있습니다. 시스템이 오디오를 생성하지 않거나, 인접한 언어로 말하거나, ASR 전사 (transcript) 내에서만 대상 스크립트 텍스트를 유지하거나, 원어민 청자에게 부자연스럽게 들릴 수 있기 때문입니다. 우리는 이러한 사례들을 분리하는 보고 프레임워크인 INSV (Intelligibility, Naturalness, Script fidelity, and Verification; 명료성, 자연스러움, 스크립트 충실도 및 검증)를 소개합니다. 본 논문은 자동 스크리닝 하위 집합인 INSV-A를 보고합니다: 합성 완료 (synthesis completion), ASR WER/CER (Character Error Rate, 음절 오류율), 전사 스크립트 충실도 비율 (Script Fidelity Rate), 그리고 오디오 언어 식별 (language identification)을 포함합니다. 원어민 MOS (Mean Opinion Score, 평균 의견 점수) 및 음성 주석 (phonetic annotation)은 명시되어 있으나 이번 릴리스에서 제공되지는 않습니다. 우리는 INSV-A를 Pashto TTS를 위한 최신 벤치마크인 PashtoTTS-Bench로 구현하였습니다. 2026년 4월-5월 실행에서는 200개의 FLEURS 프롬프트와 200개의 필터링된 Common Voice 24 프롬프트를 사용하여 Edge GulNawaz, Edge Latifa, OmniVoice clone, OmniVoice auto, 그리고 우르두어 (Urdu) 부정 대조군 (negative control)을 평가했습니다. 독립적인 omniASR_CTC_300M_v2 모델 하에서, OmniVoice auto가 가장 낮은 WER (FLEURS 24.1%, CV24 27.4%)을 기록했으며, Edge GulNawaz (32.8%, 39.5%), Edge Latifa (35.6%, 47.7%), OmniVoice clone (45.4%, 34.8%)이 그 뒤를 이었습니다. 자연스러운 음성 기준치 (natural-speech baseline)보다 낮은 WER은 깨끗한 합성 오디오를 반영하는 것이며, 이를 원어민 음성보다 더 낫다고 해석해서는 안 됩니다. Whisper Large V3는 점검된 Pashto TTS 오디오에 대해 0.0%의 Pashto 레이블을 반환한 반면, MMS-LID-4017 및 SpeechBrain VoxLingua107은 Pashto 출력물을 우르두어 대조군과 분리해냈습니다. 이번 릴리스는 제공자 메타데이터, 문장별 점수, LID (Language Identification, 언어 식별) 감사, 실패 로그, 그리고 시스템 추가를 위한 스크립트를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0