본문으로 건너뛰기

© 2026 Molayo

AI Tools요약2026. 05. 13. 07:24

오픈소스 TTS가 완전 미쳤어! 공원 사기꾼들 새 무기 생긴 거 아냐?

요약

최근 공개된 오픈소스 TTS 모델(VoxCPM2)은 200억 개의 파라미터와 방대한 다국어 데이터로 훈련되어 스튜디오급 음질과 뛰어난 성능을 자랑합니다. 특히 토크나이저를 사용하지 않고 연속 잠재 공간에서 확산 방식으로 작동하여 디테일 보존에 탁월하며, 호흡이나 감정까지 완벽하게 복제하는 궁극의 클론 모드를 제공합니다. 상업적으로 활용하기 쉬운 라이선스와 빠른 실시간 속도 덕분에 콘텐츠 제작 분야에 혁신적인 변화를 예고하고 있습니다.

핵심 포인트

  • VoxCPM2는 200억 파라미터 규모로, 스튜디오급 음질과 다국어 지원(30개 언어 + 9개 중국어 방언)을 제공합니다.
  • 토크나이저를 사용하지 않고 연속 잠재 공간에서 확산 방식으로 작동하여 음성 디테일 보존 능력이 뛰어납니다.
  • 호흡, 말버릇, 감정까지 복제하는 '궁극 클론 모드'가 구현되어 사실적인 목소리 생성이 가능합니다.
  • RTX 4090에서 실시간 속도가 매우 빠르며(지연 거의 제로), Apache 2.0 라이선스로 상업적 활용이 용이합니다.

오픈소스 TTS가 완전 미쳤어! 공원 사기꾼들 새 무기 생긴 거 아냐?

칭화 OpenBMB가 방금 VoxCPM2 공개:
200억 파라미터 + 200만 시간 다국어 데이터 훈련, 48kHz 녹음 스튜디오급 음질!
제일 무서운 건—Tokenizer 전혀 안 써! 연속 잠재 공간에서 확산 자回归으로 직행, 디테일 보존 완벽! 30개 언어 + 9개 중국어 방언
자연어 설명만으로 목소리 뚝딱 창조
궁극 클론 모드: 호흡, 말버릇, 감정까지 완벽 복제
RTX 4090 실시간 속도 0.13, 거의 지연 제로

GitHub 이미 만 스타 돌파, Apache 2.0 상용 친화적!
팟캐스트, 유음서, 숏비디오 파티 바로 이륙

AI 자동 생성 콘텐츠

본 콘텐츠는 X @Honcia13 (AI 도구/금융)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0