오픈 소스 텍스트 음성 변환(TTS)이 이렇게 논란이 많은 수준에 도달했나요?
요약
최근 공개된 VoxCPM2는 20억 개 파라미터와 방대한 다국어 데이터로 훈련된 최첨단 오픈 소스 TTS 모델입니다. 이 모델은 기존 방식의 토크나이저 단계를 제거하고 연속 잠재 공간에서 확산 자기회귀를 직접 수행하여 음색과 감정 표현을 완벽하게 보존하는 것이 특징입니다. 30개 언어, 다양한 방언 지원 및 실시간 스트리밍 성능을 갖추고 있어 상업적 활용도가 매우 높습니다.
핵심 포인트
- 토크나이저가 필요 없는 혁신적인 아키텍처: 연속 잠재 공간에서 직접 확산 자기회귀를 수행하여 정보 손실 최소화.
- 압도적인 성능과 확장성: 20억 개 파라미터, 30개 언어 및 9개 중국어 방언 지원으로 범용성이 높음.
- 고급 제어 기능 제공: 참조 음성 없이 자연어 설명만으로 음성을 생성하거나, 감정/속도/호흡 리듬까지 정교하게 조정 가능.
- 실시간 상업적 활용에 최적화: RTX 4090에서 매우 낮은 지연 시간의 스트리밍 출력이 가능하며 Apache 2.0 라이선스로 상업적 사용이 용이함.
오픈 소스 텍스트 음성 변환(TTS)이 이렇게 논란이 많은 수준에 도달했나요?
캠퍼스 사기용 새로운 무기인가요?
칭화대 오픈BMB가 20억 개 파라미터, 200만 시간 분량의 다국어 데이터로 훈련된, 48kHz 스튜디오 품질 음성과 함께 전통 TTS를 완전히 압도하는 VoxCPM2를 공개했습니다!
가장 큰 특징: 토크나이저가 필요 없어요!
전통적인 방법은 음성 파일을 생성하기 전에 별도로 토큰으로 분리하는데, 이는 중요한 정보 손실을 초래합니다.
VoxCPM2는 확산 자기회귀를 직접 연속 잠재 공간에서 수행함으로써 음색, 감정, 세부 사항을 훨씬 더 완벽하게 보존합니다.
고급 기능:
30개 언어와 9개 중국어 방언 지원
RTX 4090 실시간 속도 0.13, 거의 지연 없는 스트리밍 출력
자연어 설명을 사용해 참조 음성 없이 처음부터 음성을 생성
음성 클로닝, 감정, 말하기 속도, 말하기 패턴 조정 가능
"우수 클로닝" 모드: 참조 음성 클립 + 텍스트, 심지어 호흡 리듬까지 복제
Apache 2.0 라이선스, 상업적 사용 적합
GitHub에서 10,000개 이상의 별, 지속적으로 트렌드 목록 상위권.
팟캐스트, 오디오북, 게임 성우, 숏비디오 내레이션… 이 오픈 소스 솔루션은 충분히 강력하며, 심지어 더 강력합니다.
GitHub:
AI 자동 생성 콘텐츠
본 콘텐츠는 X @DeepTechTR (AI/오픈소스)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기