dots.tts 2B: RedNote에서 출시한 SOTA TTS
요약
RedNote(Xiaohongshu)에서 출시한 2B 파라미터 규모의 오픈 소스 TTS 모델인 dots.tts를 소개합니다. 코덱 토큰 없이 완전 연속 구조를 채택하여 48kHz 고음질 합성과 제로샷 음성 복제가 가능합니다.
핵심 포인트
- 2B 파라미터 규모의 오픈 소스(Apache 2.0) 모델
- 코덱 토큰이 없는 완전 연속 구조(Fully continuous architecture) 적용
- 48 kHz 고음질 음성 합성 지원
- 음소 파이프라인 없는 직접적인 텍스트-음성 변환
- 제로샷 음성 복제(Zero-shot voice cloning) 기능 제공
🔗 블로그: https://rednote-hilab.github.io/dots.tts-demo/
🔗 GitHub: https://github.com/rednote-hilab/dots.tts
🔗 기술 보고서 (Technical Report): https://arxiv.org/abs/2608.16894
dots.tts 🎙️ RedNote (Xiaohongshu)의 새로운 오픈 소스 TTS ✨ 2B 파라미터 (Apache 2.0) ✨ 완전 연속 구조 (Fully continuous architecture, 코덱 토큰 없음) ✨ 48 kHz 합성 ✨ 제로샷 음성 복제 (Zero-shot voice cloning) ✨ 직접적인 텍스트 → 음성 변환 (Direct text → speech, 음소 파이프라인 없음)
/u/KokaOP 님이 r/LocalLLaMA 에 게시함
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기