NüshuVoice: 피치 인식 텍스트 음성 변환(TTS)을 통한 멸종 위기 누서(Nüshu)의 목소리 복원
요약
멸종 위기 문자인 누서(Nüshu)의 음향적 재구성을 위한 최초의 TTS 벤치마크인 NüshuVoice를 소개합니다. 저자원 환경을 극복하기 위해 피치 표기법을 활용한 Nüshu-PitchVITS 모델을 제안하며, 기존 모델보다 뛰어난 음성 합성 성능을 입증했습니다.
핵심 포인트
- 멸종 위기 누서 문자를 위한 최초의 TTS 데이터셋 구축
- 저자원 환경 극복을 위한 Nüshu-PitchVITS 프레임워크 제안
- 5단계 피치 표기법을 활용한 운율적 귀납 편향 적용
- 스펙트럼 충실도 및 명료도 측면에서 기존 모델 능가
누서(Nüshu)는 역사적으로 중국 후난성 남부 장용현의 여성들이 사용했던 멸종 위기의 표음 문자입니다. 기존의 누서에 대한 계산적 연구는 주로 텍스트 디지털화와 시각적 인식에 집중되어 왔으나, 실제 발음의 음향적 재구성(acoustic reconstruction)은 여전히 거의 탐구되지 않은 상태로 남아 있습니다. 누서 텍스트 음성 변환(TTS) 시스템을 구축하는 것은 가용한 녹음 자료가 극도로 제한적이며, 자연스러운 문장 단위의 발화보다는 주로 고립된 음절 단위의 발음으로 구성되어 있기 때문에 특히 어렵습니다. 본 연구에서는 누서를 위한 최초의 TTS 벤치마크인 NüshuVoice를 소개합니다. 우리는 표준화된 유니코드(Unicode) 누서 텍스트, 음성 전사(phonetic transcriptions), 표준 중국어 번역, 그리고 기록 보관용 녹음 자료를 정렬한 문장 단위의 누서 텍스트-오디오 데이터셋을 구축하였습니다. 이러한 극심한 저자원(low-resource) 환경에서 음성을 합성하기 위해, 우리는 누서의 5단계 피치 표기법(pitch notation)을 명시적인 운율적 귀납 편향(prosodic inductive bias)으로 활용하는 F0 조건부 VITS 프레임워크인 Nüshu-PitchVITS를 제안합니다. 실험 결과, Nüshu-PitchVITS는 스펙트럼 충실도(spectral fidelity), 피치 재구성(pitch reconstruction), 그리고 인간 평가 기반의 명료도(intelligibility) 측면에서 강력한 TTS 베이스라인 모델들을 능가함을 보여주었습니다. 우리는 데이터셋과 코드를 다음 주소에 공개합니다: https://anonymous.4open.science/r/Nvshu-TTS-2EB6.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기