자연스러움이 항상 적절한가? TTS 평가를 위한 다양한 도메인별 자연스러움(Naturalness) 및 적절성(Appropriateness) 조사

텍스트 음성 변환 (Text-to-speech, TTS) 평가는 여전히 해결되지 않은 과제입니다. 기존의 주요 목표가 "자연스러움 (naturalness)"이었다면, 최근의 충실도(fidelity) 향상은 "적절성 (appropriateness)", 즉 음성이 해당 문맥에 올바른지에 대한 초점으로 이동했습니다. 본 연구에서는 기대되는 다운스트림(downstream) 용도가 달라질 때 인지가 어떻게 변화하는지 조사합니다. 우리는 AI 비서, 낭독자, 배우, 애니메이션 캐릭터, 자발적 화자라는 5가지 도메인에 걸쳐 5가지 최첨단 (SOTA) TTS 시스템의 적절성과 인간 유사성을 측정합니다. 결과에 따르면 적절성은 자연스러움과는 독립적으로 도메인에 따라 달라집니다. 시스템들이 낭독에는 뛰어난 성능을 보이지만, 표현력이 요구되는 도메인은 여전히 도전적인 과제로 남아 있으며, 한 도메인에 최적화하는 것이 다른 도메인의 성능을 저하시킬 수 있습니다. 또한, 자연스러움 점수는 양식화된(stylized) 음성에는 불이익을 주는 반면, 자발성(spontaneity)에는 보상을 주는 경향이 있습니다. 마지막으로, 본 연구는 더 표현력이 풍부한 도메인에서 일률적인(one-size-fits-all) 평가 지표가 가진 사각지대를 강조합니다. 우리는 TTS 성능이 "해결된" 것이 아니라 타겟 도메인에 따라 달라지며, 문맥을 인식하는(context-aware) 평가가 필요함을 입증합니다.

Insights

자연스러움이 항상 적절한가? TTS 평가를 위한 다양한 도메인별 자연스러움(Naturalness) 및 적절성(Appropriateness) 조사

요약

핵심 포인트

댓글

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기