ZONOS2: 8B 파라미터로 실시간 TTS를 구현하고 높은 충실도의 음성 복제 기능 제공
요약
Zyphra가 8B 파라미터 규모의 차세대 실시간 TTS 모델인 ZONOS2를 오픈 소스로 공개했습니다. Sparse MoE 구조를 통해 높은 품질과 빠른 속도를 동시에 달성하며, 뛰어난 음성 복제 성능을 제공합니다.
핵심 포인트
- 8B 파라미터 중 900M만 활성화하는 Sparse MoE 구조 채택
- Zero-shot 방식의 강력한 음성 복제 및 44.1 kHz 스튜디오 품질 지원
- 음소화기 없이 UTF-8 바이트를 직접 처리하여 다국어 및 코드 스위칭 최적화
- 새로운 TTS 평가 벤치마크인 ZTTS1-Eval 함께 출시
링크:
블로그: https://zyphra.com/our-work/zonos2
가중치(Weights): https://huggingface.co/Zyphra/ZONOS2
추론 코드(Inference code): https://github.com/Zyphra/ZONOS2
평가 코드(Eval code): https://github.com/Zyphra/ZTTS1-Eval
모델 TTSDS 운율 점수 ↑
ZONOS2 8B 88.7
Qwen 3 TTS 1.7B 87.6
Inworld TTS 2 87.5
Cartesia Sonic 3.5 87.1
Fish S2 Pro 86.6
VoxCPM 2 86.3
Gemini 3.1 Flash 85.7
ZONOS2 8B (Quality Mode) 85.6
ElevenLabs V3 83.2
Zyphra가 표현력이 뛰어나고 높은 충실도의 음성 복제에 초점을 맞춘 차세대 실시간 Text-to-Speech(TTS) 모델 ZONOS2를 출시했습니다. 이 모델은 Apache 2.0 라이선스 하에 오픈 소스로 공개되었으며, AMD 하드웨어의 Zyphra Cloud에서도 사용할 수 있습니다.
이 모델은 품질과 속도 사이에서 발생하는 일반적인 TTS 트레이드오프(tradeoff)를 해결하도록 설계되었습니다. Zyphra는 ZONOS2가 오픈 소스로 공개된 최초의 Sparse MoE TTS 모델이며, 총 8B 파라미터에 추론 시 900M 활성 파라미터를 가진다고 밝혔습니다. 목표는 간단합니다: 일반적인 타협점 없이 빠르고 효율적이며 표현력이 풍부한 음성 합성입니다.
주요 초점은 음성 복제(voice cloning)입니다. Zyphra에 따르면 ZONOS2는 화자의 독특한 특징을 포착하는 데 특히 강점을 보여, 광범위한 목소리에서 더욱 자연스러운 클론을 생성합니다. 이 복제 과정은 zero-shot 방식으로 진행되므로 미세 조정(fine-tuning)이 필요하지 않습니다.
오디오 측면에서 ZONOS2는 44.1 kHz 스튜디오 품질 오디오를 위한 Descript Audio Codec (DAC) 토큰을 예측합니다. 이는 더 나은 충실도를 제공하지만, 낮은 품질의 코덱 설정보다 모델링하기 어렵습니다. Zyphra는 대규모 모델 및 데이터 학습을 통해 이 격차를 해소했다고 말합니다.
텍스트 처리와 관련하여 ZONOS2는 음소화기(phonemizer)를 사용하지 않습니다. 대신 원시 UTF-8 바이트를 읽어들이며, 이는 Zyphra가 저자원 언어의 커버리지를 개선하고 중국어, 한국어, 일본어에서의 성능을 향상시키며 문장 중간에 네이티브 코드 스위칭(code-switching)을 지원한다고 밝힌 부분입니다.
학습 또한 대폭 확장되어 약 200K 시간에서 6M+ 시간의 오디오를 사용했습니다. Zyphra는 사전 학습(pretraining), 중기 학습(midtraining), 그리고 어닐링(annealing) 전반에 걸쳐 증가하는 스크립트 일치성 엄격도를 가진 단계적 데이터 필터링을 사용했다고 밝혔습니다.
의도된 결과는 환각(hallucinations), 오발음(mispronunciations), 그리고 반복(repetitions)을 줄이는 것입니다.
Zyphra는 또한 TTS 평가를 위한 새로운 벤치마크인 ZTTS1-Eval을 출시합니다. 여기에는 최대 17개 언어에 걸친 정제된 데이터셋(clean datasets)과 야생 데이터셋(in-the-wild datasets)이 포함되어 있으며, Qwen3-ASR, ReDimNet, MSR-UTMOS와 같은 최신 평가 모델 및 운율 지표(prosody metrics)가 포함됩니다.
이것이 핵심입니다. 거대 모델, 오픈 웨이트(open weights), Apache 2.0 라이선스, 음성 복제(voice cloning), 그리고 기존의 TTS 베이스라인을 고철처럼 보이게 만들 만큼 강력한 인프라를 갖추고 있습니다.
제출자: /u/KokaOP
[링크] [댓글]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기