arXiv논문2026. 06. 23. 11:04

텍스트 음성 변환 (TTS) 음성 재구성 평가 프레임워크

요약

언어 장애인을 위한 TTS 음성 재구성 평가의 한계를 극복하기 위해 새로운 평가 프레임워크를 제안합니다. 기존 MOS 방식의 한계를 보완하고자 주관적 BWS 방식과 객관적 이중 참조 분포 측정법을 결합하여 명료도와 화자 정체성을 정밀하게 평가합니다.

핵심 포인트

기존 MOS 방식의 낮은 민감도와 신뢰성 문제 지적
상황적 프레이밍을 적용한 BWS 기반 주관적 평가 도입
명료도와 화자 정체성 간의 절충 관계를 측정하는 새로운 객관적 지표 제안
17개 제로샷 TTS 시스템을 통한 프레임워크의 유효성 검증

텍스트 음성 변환 (Text-to-Speech, TTS)을 이용한 음성 재구성 (Voice reconstruction)은 언어 장애가 있는 사람들에게 의사소통 방법을 제공하며, 이는 명료도 (intelligibility)를 개선하는 동시에 화자의 정체성 (speaker identity)을 유지하는 것을 목표로 합니다. 기존 연구들은 일반적으로 자연스러움 (naturalness)과 화자 유사성 (speaker similarity)을 평가하기 위해 평균 의견 점수 (Mean Opinion Score, MOS)에 의존해 왔으나, 이는 민감도와 신뢰성이 제한적입니다. 본 연구에서는 주관적 및 객관적 구성 요소를 포함하는 평가 프레임워크를 제안합니다. 주관적으로는 상황적 프레이밍 (situational framing)을 적용한 최선-최악 척도법 (Best Worst Scaling, BWS)을 사용하여 인지된 명료도와 화자 정체성을 평가합니다. 객관적으로는 표준 측정 방식이 명료도가 매우 낮은 화자의 재구성 성공 여부를 예측하는 데 실패함을 입증하였으며, 이에 따라 명료도와 화자 정체성 사이의 절충 관계 (trade-off)를 평가하기 위한 새로운 이중 참조 분포 측정법 (dual-reference distributional measure)을 도입합니다. 193명의 화자를 대상으로 17개의 제로샷 (zero-shot) TTS 시스템의 출력을 평가함으로써, 본 프레임워크가 음성 재구성을 평가하기 위한 신뢰할 수 있고 과업에 부합하는 (task-aligned) 접근 방식을 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

텍스트 음성 변환 (TTS) 음성 재구성 평가 프레임워크

요약

핵심 포인트

댓글