
진심으로 신급입니다.
요약
GitHub 트렌딩 1위를 기록한 음성 합성 AI 'VoxCPM2'를 소개합니다. 기존의 파츠 조립 방식에서 벗어나 목소리 자체를 설계하는 새로운 방식을 통해 실제 사람과 구분하기 힘든 고품질 음성을 생성합니다.
핵심 포인트
- 텍스트 지시만으로 새로운 목소리 생성 가능
- 참조 음성 없이도 감정 및 말하기 속도 조절 가능
- 48kHz 스튜디오급 음질 및 Apache 2.0 라이선스 제공
- 30개 언어 및 다양한 중국어 방언 지원
진심으로 신급입니다.
GitHub 트렌딩 1위, 스타(Star) 2만 개 이상을 기록한 음성 합성 AI "VoxCPM2"가 해외에서 화제입니다. 목소리가 너무 진짜 같아서 이제는 구분이 안 될 정도입니다.
・텍스트로 "차분한 30대 여성의 목소리"라고 쓰기만 하면 생성
・짧은 오디오 클립으로부터 목소리의 특징이나 말하기 속도까지 똑같이 재현
・48kHz 스튜디오급 음질, 상업적 이용이 가능한 Apache 2.0 라이선스
모두 무료로 사용 가능합니다.
이것이 왜 대단하냐면, 음성을 "잘게 쪼개어 기호로 변환"하던 기존의 방식을 버렸기 때문입니다.
기존의 AI 음성은 목소리를 작은 파츠로 분해한 뒤 다시 조립하는 과정을 거쳤는데, 그 과정에서 "왠지 로봇 같은" 이질감이 남아 있었습니다.
이것은 본질적으로 "녹음된 목소리를 흉내 내는 것"에서 "목소리 그 자체를 설계하는 것"으로의 전환입니다.
・30개 언어 지원 (광둥어와 민남어를 포함한 중국어 방언 9종 포함)
・참조 음성 없이, 문장 지시만으로 새로운 목소리를 만들 수 있음
・감정이나 말하기 속도, 입버릇까지 자유롭게 조절 가능
예를 들어 "나레이션 음성이 필요하다"고 생각한다면,
① "활기찬 20대 남성의 목소리"라고 문장으로 지정하여 목소리를 생성
② 원고를 입력하여 스튜디오급 음질로 낭독
③ 그대로 영상이나 팟캐스트(Podcast)에 실어서 공개
유료 음성 서비스를 구독하지 않아도, 이 정도 수준까지 무료로 해낼 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @so_ainsight (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기