본문으로 건너뛰기

© 2026 Molayo

Deep Tech요약2026. 05. 29. 12:35

오픈 소스 텍스트 음성 변환 (TTS) 소프트웨어의 인기와 VoxCPM2의 등장

요약

Tsinghua University의 OpenBMB가 발표한 오픈 소스 TTS 모델 VoxCPM2를 소개합니다. 토크나이저 없이 연속적인 잠재 공간에서 확산 자기회귀 방식을 사용하여 정보 손실 없이 고품질 음성을 생성합니다.

핵심 포인트

  • 20억 파라미터와 200만 시간의 다국어 데이터 학습
  • 토크나이저 미사용으로 음색, 감정, 호흡 리듬 완벽 보존
  • 30개 언어 및 9개 중국어 방언 지원
  • 자연어 설명을 통한 음성 생성 및 정교한 음성 복제 가능
  • Apache 2.0 라이선스로 상업적 이용 가능

오픈 소스 텍스트 음성 변환 (TTS, Text-to-Speech) 소프트웨어가 이토록 인기를 얻게 되면서, 일부 집단은 아마 매우 기뻐하고 있을 것입니다.

Tsinghua University의 OpenBMB가 VoxCPM2라는 것을 발표했는데, 그것을 보고 정말 깜짝 놀랐습니다.

20억 개의 파라미터(Parameter), 200만 시간의 다국어 음성 학습 데이터, 그리고 48kHz 스튜디오 품질의 출력을 제공합니다. 이 수치들은 전통적인 TTS를 기본적으로 무효화할 정도입니다.

하지만 가장 걱정스러운 것은 이것이 아닙니다.

토크나이저(Tokenizer)를 사용하지 않습니다.

전통적인 솔루션들은 음성 데이터를 생성하기 전에 개별 토큰(Token)으로 분리하는데, 이 과정은 상당한 정보 손실을 초래하며 음성을 항상 약간 불완전하게 만듭니다. VoxCPM2는 음색, 감정, 호흡 리듬을 완전히 보존하면서 연속적인 잠재 공간(Latent Space)에서 직접 확산 자기회귀(Diffusion Autoregression)를 수행합니다.

주요 특징은 다음과 같습니다:

① 30개 언어와 9개 중국어 방언을 지원하며, Mandarin, Cantonese, Hokkien 사이를 쉽게 전환할 수 있습니다.

② RTX 4090에서 0.13의 실시간 프레임 속도에 도달하며, 스트리밍 출력 시 거의 체감할 수 없는 지연 시간을 가집니다.

③ 참조 음성(Reference Voice)이 필요하지 않습니다. 음성을 자연어 설명으로부터 직접 생성할 수 있습니다.

④ 음성 복제(Voice Cloning)를 통해 감정, 말하기 속도, 심지어 말하기 패턴까지 조정할 수 있으며, 심지어 더듬거림까지 추가할 수 있습니다.

⑤ 궁극의 복제 모드: 참조 음성 클립에 텍스트를 추가하면 호흡 리듬까지 복제할 수 있습니다.

라이선스는 Apache 2.0으로, 상업적 이용이 가능합니다. GitHub에서 10,000개 이상의 별(Star)을 받았으며 지속적으로 트렌드 목록 상위에 머물고 있습니다.

팟캐스트, 오디오북, 게임 성우, 짧은 영상 내레이션을 위한 이 오픈 소스 솔루션은 이제 충분히 강력하며, 심지어 많은 유료 솔루션들조차 앞서고 있습니다.

솔직히 말해서, 이것은 양날의 검입니다. 한편으로는 콘텐츠 제작자들을 위한 진입 장벽을 완전히 제거하지만, 다른 한편으로는 사기를 위한 더 날카로운 도구를 제공합니다.

이제 목소리를 정말로 신뢰할 수 없게 되었습니다.

🔗 https://t.co/JpL73sNoRC

AI 자동 생성 콘텐츠

본 콘텐츠는 X @DeepTechTR (AI/오픈소스)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0