ZONOS2: 8B 파라미터로 실시간 TTS를 구현하고 높은 충실도의 음성 복제 기능 제공

링크:

블로그: https://zyphra.com/our-work/zonos2
가중치(Weights): https://huggingface.co/Zyphra/ZONOS2
추론 코드(Inference code): https://github.com/Zyphra/ZONOS2
평가 코드(Eval code): https://github.com/Zyphra/ZTTS1-Eval

모델 TTSDS 운율 점수 ↑

ZONOS2 8B 88.7
Qwen 3 TTS 1.7B 87.6
Inworld TTS 2 87.5
Cartesia Sonic 3.5 87.1
Fish S2 Pro 86.6
VoxCPM 2 86.3
Gemini 3.1 Flash 85.7
ZONOS2 8B (Quality Mode) 85.6
ElevenLabs V3 83.2

Zyphra가 표현력이 뛰어나고 높은 충실도의 음성 복제에 초점을 맞춘 차세대 실시간 Text-to-Speech(TTS) 모델 ZONOS2를 출시했습니다. 이 모델은 Apache 2.0 라이선스 하에 오픈 소스로 공개되었으며, AMD 하드웨어의 Zyphra Cloud에서도 사용할 수 있습니다.
이 모델은 품질과 속도 사이에서 발생하는 일반적인 TTS 트레이드오프(tradeoff)를 해결하도록 설계되었습니다. Zyphra는 ZONOS2가 오픈 소스로 공개된 최초의 Sparse MoE TTS 모델이며, 총 8B 파라미터에 추론 시 900M 활성 파라미터를 가진다고 밝혔습니다. 목표는 간단합니다: 일반적인 타협점 없이 빠르고 효율적이며 표현력이 풍부한 음성 합성입니다.
주요 초점은 음성 복제(voice cloning)입니다. Zyphra에 따르면 ZONOS2는 화자의 독특한 특징을 포착하는 데 특히 강점을 보여, 광범위한 목소리에서 더욱 자연스러운 클론을 생성합니다. 이 복제 과정은 zero-shot 방식으로 진행되므로 미세 조정(fine-tuning)이 필요하지 않습니다.
오디오 측면에서 ZONOS2는 44.1 kHz 스튜디오 품질 오디오를 위한 Descript Audio Codec (DAC) 토큰을 예측합니다. 이는 더 나은 충실도를 제공하지만, 낮은 품질의 코덱 설정보다 모델링하기 어렵습니다. Zyphra는 대규모 모델 및 데이터 학습을 통해 이 격차를 해소했다고 말합니다.
텍스트 처리와 관련하여 ZONOS2는 음소화기(phonemizer)를 사용하지 않습니다. 대신 원시 UTF-8 바이트를 읽어들이며, 이는 Zyphra가 저자원 언어의 커버리지를 개선하고 중국어, 한국어, 일본어에서의 성능을 향상시키며 문장 중간에 네이티브 코드 스위칭(code-switching)을 지원한다고 밝힌 부분입니다.
학습 또한 대폭 확장되어 약 200K 시간에서 6M+ 시간의 오디오를 사용했습니다. Zyphra는 사전 학습(pretraining), 중기 학습(midtraining), 그리고 어닐링(annealing) 전반에 걸쳐 증가하는 스크립트 일치성 엄격도를 가진 단계적 데이터 필터링을 사용했다고 밝혔습니다.

의도된 결과는 환각(hallucinations), 오발음(mispronunciations), 그리고 반복(repetitions)을 줄이는 것입니다.
Zyphra는 또한 TTS 평가를 위한 새로운 벤치마크인 ZTTS1-Eval을 출시합니다. 여기에는 최대 17개 언어에 걸친 정제된 데이터셋(clean datasets)과 야생 데이터셋(in-the-wild datasets)이 포함되어 있으며, Qwen3-ASR, ReDimNet, MSR-UTMOS와 같은 최신 평가 모델 및 운율 지표(prosody metrics)가 포함됩니다.
이것이 핵심입니다. 거대 모델, 오픈 웨이트(open weights), Apache 2.0 라이선스, 음성 복제(voice cloning), 그리고 기존의 TTS 베이스라인을 고철처럼 보이게 만들 만큼 강력한 인프라를 갖추고 있습니다.

제출자: /u/KokaOP
[링크] [댓글]

Insights

ZONOS2: 8B 파라미터로 실시간 TTS를 구현하고 높은 충실도의 음성 복제 기능 제공

요약

핵심 포인트

댓글

Amazon은 3세대 에이전트를 보유하고 있지만, Mercado Libre 판매자들은 여전히 스페인어로 수동 답변을 합니다

AI 검색 가시성을 위한 프롬프트 벤치마크 구축 방법

Grok 다운로드 — 유료 플랜의 공통 주간 풀(Weekly Pool) 도입에 따른 제한 사항 변화: 하룻밤 사이에 리소스를 모두 소진하지

40줄의 Python 코드로 LLM 앱을 위한 시맨틱 캐시(Semantic Cache)를 구축하고 비용을 절반으로 절감하는 방법

Amazon은 3세대 에이전트를 보유하고 있지만, Mercado Libre 판매자들은 여전히 스페인어로 수동 답변을 합니다

AI 검색 가시성을 위한 프롬프트 벤치마크 구축 방법

Grok 다운로드 — 유료 플랜의 공통 주간 풀(Weekly Pool) 도입에 따른 제한 사항 변화: 하룻밤 사이에 리소스를 모두 소진하지

40줄의 Python 코드로 LLM 앱을 위한 시맨틱 캐시(Semantic Cache)를 구축하고 비용을 절반으로 절감하는 방법