자연스러움이 항상 적절한가? TTS 평가를 위한 다양한 도메인별 자연스러움(Naturalness) 및 적절성(Appropriateness) 조사
요약
TTS 평가의 초점이 기존의 '자연스러움'에서 문맥에 맞는 '적절성'으로 이동하고 있음을 연구합니다. 5가지 도메인에서 SOTA TTS 시스템을 분석한 결과, 도메인별로 요구되는 음성 특성이 다르며 일률적인 평가 지표로는 한계가 있음을 입증했습니다.
핵심 포인트
- TTS 평가 기준이 자연스러움에서 문맥적 적절성으로 변화 중
- 도메인(AI 비서, 배우 등)에 따라 적절성과 자연스러움의 상관관계가 다름
- 한 도메인에 최적화된 모델은 다른 도메인에서 성능이 저하될 수 있음
- 표현력이 중요한 도메인을 위한 문맥 인식형 평가 지표 필요
텍스트 음성 변환 (Text-to-speech, TTS) 평가는 여전히 해결되지 않은 과제입니다. 기존의 주요 목표가 "자연스러움 (naturalness)"이었다면, 최근의 충실도(fidelity) 향상은 "적절성 (appropriateness)", 즉 음성이 해당 문맥에 올바른지에 대한 초점으로 이동했습니다. 본 연구에서는 기대되는 다운스트림(downstream) 용도가 달라질 때 인지가 어떻게 변화하는지 조사합니다. 우리는 AI 비서, 낭독자, 배우, 애니메이션 캐릭터, 자발적 화자라는 5가지 도메인에 걸쳐 5가지 최첨단 (SOTA) TTS 시스템의 적절성과 인간 유사성을 측정합니다. 결과에 따르면 적절성은 자연스러움과는 독립적으로 도메인에 따라 달라집니다. 시스템들이 낭독에는 뛰어난 성능을 보이지만, 표현력이 요구되는 도메인은 여전히 도전적인 과제로 남아 있으며, 한 도메인에 최적화하는 것이 다른 도메인의 성능을 저하시킬 수 있습니다. 또한, 자연스러움 점수는 양식화된(stylized) 음성에는 불이익을 주는 반면, 자발성(spontaneity)에는 보상을 주는 경향이 있습니다. 마지막으로, 본 연구는 더 표현력이 풍부한 도메인에서 일률적인(one-size-fits-all) 평가 지표가 가진 사각지대를 강조합니다. 우리는 TTS 성능이 "해결된" 것이 아니라 타겟 도메인에 따라 달라지며, 문맥을 인식하는(context-aware) 평가가 필요함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기