arXiv논문2026. 06. 25. 11:29

Sarashina2.2-TTS: 데이터 스케일링 및 타겟 데이터 합성을 통한 일본어 음성 생성에서의 한자 다음음(Kanji Polyphony)

요약

Sarashina2.2-TTS는 일본어의 한자 다음(Kanji Polyphony) 문제를 해결하기 위해 설계된 LLM 기반 TTS 시스템입니다. 대규모 데이터 스케일링과 상용 한자를 포함한 타겟 데이터 증강을 통해 높은 읽기 정확도와 제로샷 화자 유사도를 달성했습니다.

핵심 포인트

361,000시간의 대규모 음성 데이터 학습
상용 한자 2,136자를 아우르는 데이터 증강 파이프라인 설계
발음 정확도 측정을 위한 Joyo Kanji Yomi Benchmark 및 Kana-CER 제안
제로샷 일본어 합성에서 높은 화자 유사도 및 교차 언어 강건성 확보

대규모 언어 모델 (LLM) 기반의 텍스트 음성 변환 (TTS) 시스템들이 고품질의 음성 합성을 달성해 왔지만, 대부분의 기존 시스템은 영어와 중국어에 집중되어 있습니다. 반면 일본어는 여전히 탐구가 부족한 상태이며, 문맥에 따라 읽는 법이 달라지는 광범위한 한자 다음음 (Kanji Polyphony)과 같은 고유한 언어적 과제들이 아직 적절히 해결되지 않았습니다. 본 논문에서는 데이터 전략과 평가 방법론이라는 이중 접근 방식을 통해 이러한 과제들을 해결하는 일본어 중심의 LLM-TTS 시스템인 Sarashina2.2-TTS (https://github.com/sbintuitions/sarashina2.2-tts)를 소개합니다. 첫째, 우리는 일본어와 영어 데이터의 균형 잡힌 혼합을 포함하여 약 361,000시간의 음성 데이터로 학습 규모를 확장했습니다. 나아가, 한자 다음음의 중의성 해소 (disambiguation)를 효율적으로 처리하기 위해 일본 문화청이 지정한 2,136자의 상용 (Joyo) 한자를 모두 아우르는 타겟 데이터 증강 (Data Augmentation) 파이프라인을 설계했습니다. 둘째, 2,136자의 상용 한자와 그에 따른 4,378개의 읽기 방식을 포함하는 Joyo Kanji Yomi Benchmark (https://github.com/sbintuitions/JoyoKanji-Yomi-Benchmark)를 도입합니다. 이 벤치마크와 함께, 우리는 합성된 음성을 가나 (kana) 공간에서의 참조 읽기와 비교하여 철자 변형을 제거하고 발음의 정확성을 직접 측정하는 지표인 Kana-CER을 제안합니다. 실험 결과, 우리의 타겟 데이터 증강이 읽기 정확도를 크게 향상시킨다는 것을 입증했습니다. 종합적으로, Sarashina2.2-TTS는 최첨단 (state-of-the-art) 수준의 한자 단위 읽기 정확도를 달성하였으며, 일반적인 문장 단위 발음에서는 최상위 베이스라인 (baseline) 모델들과 대등한 성능을 보였고, 제로샷 (zero-shot) 일본어 음성 합성에서 가장 높은 화자 유사도 (speaker similarity)를 제공합니다. 또한, 교차 언어 (cross-lingual) 평가를 통해 Sarashina2.2-TTS가 프롬프트 언어와 관계없이 안정적인 일본어 발음을 유지하는 유일한 시스템임을 확인하였으며, 이는 우리의 균형 잡힌 학습 접근 방식이 교차 언어 강건성 (cross-lingual robustness)을 향상시킨다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Sarashina2.2-TTS: 데이터 스케일링 및 타겟 데이터 합성을 통한 일본어 음성 생성에서의 한자 다음음(Kanji Polyphony)

요약

핵심 포인트

댓글