인도어 TTS 성능 평가: 대규모 쌍별 비교 분석 및 선호도 모델링

최근 기초 모델(Foundation Models) 평가에서 크라우드소싱 기반 쌍별 비교(Pairwise Evaluation)가 확장 가능한 방법론으로 주목받고 있습니다. 그러나 텍스트-음성 변환(Text to Speech, TTS)에 이 방법을 적용할 경우, 언어적 다양성과 음성 지각의 다차원적인 특성 때문에 높은 분산(high variance)을 보이는 문제가 발생합니다.

본 연구는 이러한 문제를 해결하기 위해, 언어학적 제어(linguistic control)와 지각 기반 주석(perceptually grounded annotation)을 결합한 통제된 다차원 쌍별 평가 프레임워크를 제시합니다. 특히 인도의 언어 다양성을 반영하는 10개 인도어권 언어를 대상으로 삼았습니다.

평가 과정은 대규모로 진행되었습니다. 총 5K+개의 원어민 및 코드 혼합(code-mixed) 문장을 사용하여 7개의 최신 TTS 시스템을 평가했습니다. 이 과정에서 1900명 이상의 원어민 평가자들로부터 12만 건이 넘는 쌍별 비교 데이터를 수집할 수 있었습니다.

단순히 전체적인 선호도만을 측정하는 것이 아니라, 평가자들은 다음과 같은 6가지 다차원적 관점에서 주관적인 판단을 제공했습니다:

청취 가능성 (Intelligibility)
표현력 (Expressiveness)
음질 (Voice Quality)
생동감 (Liveliness)
노이즈 (Noise)
환각 현상 (Hallucinations)

수집된 방대한 데이터를 활용하여, 연구진은 브래들리-테리 모델링(Bradley-Terry modeling)을 통해 객관적인 다국어 리더보드를 구축했습니다. 나아가 SHAP 분석(SHapley Additive exPlanations)과 같은 기법을 사용하여 인간의 선호도 패턴을 심층적으로 해석하고, 각 TTS 모델이 어떤 성능 차원(perceptual dimensions)에서 강점이나 트레이드오프(trade-offs)를 가지는지 종합적으로 분석했습니다. 이를 통해 단순히 '좋다/나쁘다' 이상의 깊이 있는 기술적 통찰력을 제공합니다.

Insights

인도어 TTS 성능 평가: 대규모 쌍별 비교 분석 및 선호도 모델링

요약

핵심 포인트

댓글

사람들은 Anthropic이 Opus 5를 ARC-AGI 퍼즐과 유사한 RL 환경에서 실제로 학습시켰다는 사실을 깨닫지 못하고 있습니다

Anthropic CEO Dario Amodei, HBM 시장의 약 85%를 점유하는 SK hynix 및 Samsung과 메모리 공급 계약

Next.js, TypeScript, 그리고 선언적 엔진(Declarative Engine)으로 50개 이상의 계산기를 만들며 배운 것들

UK AISI / CAISI의 Kimi K3 사이버 역량 예비 평가

사람들은 Anthropic이 Opus 5를 ARC-AGI 퍼즐과 유사한 RL 환경에서 실제로 학습시켰다는 사실을 깨닫지 못하고 있습니다

Anthropic CEO Dario Amodei, HBM 시장의 약 85%를 점유하는 SK hynix 및 Samsung과 메모리 공급 계약

Next.js, TypeScript, 그리고 선언적 엔진(Declarative Engine)으로 50개 이상의 계산기를 만들며 배운 것들

UK AISI / CAISI의 Kimi K3 사이버 역량 예비 평가