X요약2026. 06. 08. 13:58

dots.tts: Xiaohongshu가 공개한 오픈 소스 2B 파라미터 음성 합성 모델

요약

Xiaohongshu가 2B 파라미터 규모의 오픈 소스 음성 합성 모델인 dots.tts를 공개했습니다. 이 모델은 연속 신호에 의존하는 아키텍처를 통해 제로샷 클로닝과 다국어 및 감정 표현이 가능한 고성능 음성 합성을 구현했습니다.

핵심 포인트

2B 파라미터 규모의 오픈 소스 음성 합성 모델
Qwen2.5 LLM과 플로우 매칭 기술 결합
오픈 소스 모델 중 최고 수준의 벤치마크 성적 달성
제로샷 클로닝 및 다국어, 감정 합성 지원

dots.tts는 Xiaohongshu가 오픈 소스로 공개한 2B 파라미터 (2B parameters) 음성 합성 (Speech Synthesis) 모델로, 여러 공개 벤치마크 (Benchmarks)에서 오픈 소스 모델 중 최고의 성적을 거두었습니다.

Xiaohongshu AI 연구소에서 개발한 이 음성 합성 모델은 2B 파라미터를 가지며, 전체 프로세스에서 이산 토큰 (Discrete Tokens)을 사용하지 않고 오직 연속 신호 (Continuous Signals)에만 의존합니다. 아키텍처 (Architecture) 측면에서는 의미 인코더 (Semantic Encoder)에 Qwen2.5 대규모 언어 모델 (LLM)을 더하고, 여기에 플로우 매칭 (Flow Matching) 음향 헤드 (Acoustic Head)를 결합한 형태이며, 48 kHz AudioVAE 위에서 동작합니다. 이를 통해 제로샷 클로닝 (Zero-shot Cloning), 다국어 지원 및 감정이 실린 합성이 가능합니다. Seed-TTS-Eval 테스트 결과, 중국어 단어 오류율 (WER)은 0.94%, 영어는 1.30%, 중국어 난이도 높은 데이터셋 (Hard Set)은 6.60%를 기록했으며, 화자 유사도 (Speaker Similarity) 또한 각각 81.0, 77.1, 79.5로 모두 오픈 소스 모델 중 가장 높은 수치를 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

dots.tts: Xiaohongshu가 공개한 오픈 소스 2B 파라미터 음성 합성 모델

요약

핵심 포인트

댓글