arXiv논문2026. 06. 24. 11:39

CN-NewsTTS Bench: 원문 입력 기반 중국어 뉴스 TTS 발음 평가를 위한 타겟 레벨 자동 벤치마크

요약

중국어 뉴스 텍스트의 복잡한 서면 표기(기호, 숫자, 약어 등)를 TTS 시스템이 얼마나 정확하게 발음하는지 평가하는 CN-NewsTTS Bench v0.1을 소개합니다. 별도의 수동 편집 없이 원문 기반으로 발음을 자동 평가할 수 있는 오픈 벤치마크 데이터셋과 평가 체계를 제공합니다.

핵심 포인트

중국어 뉴스 특유의 복잡한 텍스트 패턴에 특화된 벤치마크
LLM 재작성이나 SSML 힌트 없이 원문 그대로의 발음 능력 평가
200개의 개발 세트와 800개의 공개 테스트 세트 포함
7개 TTS 제품에 대한 초기 성능 비교 및 분석 결과 제공

중국어 뉴스 텍스트는 점수, 하이픈으로 연결된 모델명, 범위, 단위 기호, 백분율, 영어 약어, 그리고 중국어-라틴어-숫자가 혼합된 이름과 같이 밀집된 서면 형태를 포함합니다. 이러한 형태는 실제 청취 워크플로우에서 빈번하게 나타나며, 텍스트 음성 변환 (TTS) 시스템은 구어적 의미를 변경하면서도 서면 문자열을 그대로 유지할 수 있습니다. 우리는 사용자 측의 규칙, LLM 재작성, SSML 힌트 또는 수동 편집 없이, 중국어 뉴스 TTS 제품이 원문 텍스트로부터 이러한 타겟들을 올바르게 발음하는지 평가하기 위한 오픈 타겟 레벨 벤치마크인 CN-NewsTTS Bench v0.1을 소개합니다. 이번 릴리스에는 200개 레코드의 개발 세트, 800개 레코드의 공개 테스트 세트, 992개의 공개 자동 평가 가능 타겟, 3-ASR 앙상블(ensemble)로부터 얻은 고정된 전사(transcripts), 자동 타겟 스코어러(scorer), 그리고 7개 제품 TTS 시스템에 대한 초기 결과가 포함되어 있습니다. 추가적으로 우리는 ASR 경로 진단, ASR 서브셋 절제 연구 (ablations), 카테고리 레벨 결과, 신뢰 구간 및 제공업체 설정 메타데이터를 보고합니다. 가장 우수한 시스템은 0.879의 엄격한 정확도 (strict accuracy)에 도달한 반면, 여러 시스템은 0.60 미만에 머물러 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

CN-NewsTTS Bench: 원문 입력 기반 중국어 뉴스 TTS 발음 평가를 위한 타겟 레벨 자동 벤치마크

요약

핵심 포인트

댓글