본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 11:27

인도어 TTS 성능 평가: 대규모 쌍별 비교 분석 및 선호도 모델링

요약

본 연구는 언어적 다양성과 음성 인식의 다차원성을 고려하여, 인도어(Indic languages)를 포함한 다국어 TTS 시스템을 평가하는 통제된 다차원 쌍별 평가 프레임워크를 제시합니다. 10개 인도어권 언어와 5K+ 문장을 사용하여 7개의 최신 TTS 시스템을 평가하고, 1900명 이상의 원어민 평가자로부터 12만 건 이상의 비교 데이터를 수집했습니다. 이 데이터를 기반으로 브래들리-테리(Bradley-Terry) 모델링을 통해 다국어 리더보드를 구축하고, SHAP 분석을 활용하여 인간의 선호도를 해석하며 각 음성 품질 차원별로

핵심 포인트

  • 10개 인도어권 언어와 5K+ 문장을 사용하여 7개의 최신 TTS 시스템에 대한 평가를 진행했습니다.
  • 1900명 이상의 원어민 평가자로부터 총 12만 건 이상의 쌍별 비교 데이터를 수집했습니다.
  • 평가 시 청취 가능성(Intelligibility), 표현력(Expressiveness), 음질(Voice Quality) 등 6가지 다차원적 관점에서 인간의 선호도를 분석했습니다.
  • 브래들리-테리 모델링을 통해 객관적인 다국어 리더보드를 구축하고, SHAP 분석으로 성능 차원의 원인을 해석합니다.

최근 기초 모델(Foundation Models) 평가에서 크라우드소싱 기반 쌍별 비교(Pairwise Evaluation)가 확장 가능한 방법론으로 주목받고 있습니다. 그러나 텍스트-음성 변환(Text to Speech, TTS)에 이 방법을 적용할 경우, 언어적 다양성과 음성 지각의 다차원적인 특성 때문에 높은 분산(high variance)을 보이는 문제가 발생합니다.

본 연구는 이러한 문제를 해결하기 위해, 언어학적 제어(linguistic control)와 지각 기반 주석(perceptually grounded annotation)을 결합한 통제된 다차원 쌍별 평가 프레임워크를 제시합니다. 특히 인도의 언어 다양성을 반영하는 10개 인도어권 언어를 대상으로 삼았습니다.

평가 과정은 대규모로 진행되었습니다. 총 5K+개의 원어민 및 코드 혼합(code-mixed) 문장을 사용하여 7개의 최신 TTS 시스템을 평가했습니다. 이 과정에서 1900명 이상의 원어민 평가자들로부터 12만 건이 넘는 쌍별 비교 데이터를 수집할 수 있었습니다.

단순히 전체적인 선호도만을 측정하는 것이 아니라, 평가자들은 다음과 같은 6가지 다차원적 관점에서 주관적인 판단을 제공했습니다:

  1. 청취 가능성 (Intelligibility)
  2. 표현력 (Expressiveness)
  3. 음질 (Voice Quality)
  4. 생동감 (Liveliness)
  5. 노이즈 (Noise)
  6. 환각 현상 (Hallucinations)

수집된 방대한 데이터를 활용하여, 연구진은 브래들리-테리 모델링(Bradley-Terry modeling)을 통해 객관적인 다국어 리더보드를 구축했습니다. 나아가 SHAP 분석(SHapley Additive exPlanations)과 같은 기법을 사용하여 인간의 선호도 패턴을 심층적으로 해석하고, 각 TTS 모델이 어떤 성능 차원(perceptual dimensions)에서 강점이나 트레이드오프(trade-offs)를 가지는지 종합적으로 분석했습니다. 이를 통해 단순히 '좋다/나쁘다' 이상의 깊이 있는 기술적 통찰력을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0