오픈 소스 텍스트 음성 변환 (TTS) 소프트웨어의 인기와 VoxCPM2의 등장

오픈 소스 텍스트 음성 변환 (TTS, Text-to-Speech) 소프트웨어가 이토록 인기를 얻게 되면서, 일부 집단은 아마 매우 기뻐하고 있을 것입니다.

Tsinghua University의 OpenBMB가 VoxCPM2라는 것을 발표했는데, 그것을 보고 정말 깜짝 놀랐습니다.

20억 개의 파라미터(Parameter), 200만 시간의 다국어 음성 학습 데이터, 그리고 48kHz 스튜디오 품질의 출력을 제공합니다. 이 수치들은 전통적인 TTS를 기본적으로 무효화할 정도입니다.

하지만 가장 걱정스러운 것은 이것이 아닙니다.

토크나이저(Tokenizer)를 사용하지 않습니다.

전통적인 솔루션들은 음성 데이터를 생성하기 전에 개별 토큰(Token)으로 분리하는데, 이 과정은 상당한 정보 손실을 초래하며 음성을 항상 약간 불완전하게 만듭니다. VoxCPM2는 음색, 감정, 호흡 리듬을 완전히 보존하면서 연속적인 잠재 공간(Latent Space)에서 직접 확산 자기회귀(Diffusion Autoregression)를 수행합니다.

주요 특징은 다음과 같습니다:

① 30개 언어와 9개 중국어 방언을 지원하며, Mandarin, Cantonese, Hokkien 사이를 쉽게 전환할 수 있습니다.

② RTX 4090에서 0.13의 실시간 프레임 속도에 도달하며, 스트리밍 출력 시 거의 체감할 수 없는 지연 시간을 가집니다.

③ 참조 음성(Reference Voice)이 필요하지 않습니다. 음성을 자연어 설명으로부터 직접 생성할 수 있습니다.

④ 음성 복제(Voice Cloning)를 통해 감정, 말하기 속도, 심지어 말하기 패턴까지 조정할 수 있으며, 심지어 더듬거림까지 추가할 수 있습니다.

⑤ 궁극의 복제 모드: 참조 음성 클립에 텍스트를 추가하면 호흡 리듬까지 복제할 수 있습니다.

라이선스는 Apache 2.0으로, 상업적 이용이 가능합니다. GitHub에서 10,000개 이상의 별(Star)을 받았으며 지속적으로 트렌드 목록 상위에 머물고 있습니다.

팟캐스트, 오디오북, 게임 성우, 짧은 영상 내레이션을 위한 이 오픈 소스 솔루션은 이제 충분히 강력하며, 심지어 많은 유료 솔루션들조차 앞서고 있습니다.

솔직히 말해서, 이것은 양날의 검입니다. 한편으로는 콘텐츠 제작자들을 위한 진입 장벽을 완전히 제거하지만, 다른 한편으로는 사기를 위한 더 날카로운 도구를 제공합니다.

이제 목소리를 정말로 신뢰할 수 없게 되었습니다.

🔗 https://t.co/JpL73sNoRC

Insights

오픈 소스 텍스트 음성 변환 (TTS) 소프트웨어의 인기와 VoxCPM2의 등장

요약

핵심 포인트

댓글

RLVR에서 RLSVR로

Claude Code 주간 업데이트 요약 (2026/08/02 주)

New Yorker: 중국, 미래 산업을 선점하기 위해 질주 중

BP, Gelsenkirchen 정유소 Klesch Group에 매각 완료

Claude Code 주간 업데이트 요약 (2026/08/02 주)

New Yorker: 중국, 미래 산업을 선점하기 위해 질주 중

BP, Gelsenkirchen 정유소 Klesch Group에 매각 완료