
이제 당신의 목소리로 배운 적 없는 언어를 말할 수 있습니다.
요약
오픈 소스 음성 복제 모델인 GPT-SoVITS가 출시되었습니다. 단 5초의 오디오만으로도 고품질의 제로샷 클로닝이 가능하며, 교차 언어 지원을 통해 사용자의 목소리 톤을 유지하며 다양한 언어로 말할 수 있습니다.
핵심 포인트
- 5초 분량의 오디오로 고품질 제로샷 클로닝 가능
- 별도의 학습 없이 즉시 사용하거나 1분 내 미세 조정 가능
- 영어, 일본어, 한국어 등 다양한 언어의 교차 언어 지원
- ElevenLabs 등 유료 서비스 대비 비용 효율적인 오픈 소스 대안
- GPT 스타일 텍스트 인코더와 VITS 음향 모델 결합 아키텍처
이제 당신의 목소리로 배운 적 없는 언어를 말할 수 있습니다.
로봇 같은 목소리로 텍스트를 읽어주는 번역 앱이 아닙니다.
당신의 실제 목소리입니다.
당신의 톤.
당신의 리듬.
당신의 개성.
유창한 일본어. 또는 한국어. 또는 광둥어. 또는 만다린(Mandarin).
당신이 말하는 5초의 분량만 있으면 충분합니다.
RVC-Boss로 알려진 개발자가 오픈 소스 (open-source) 버전을 출시했으며, 그 이름을 GPT-SoVITS라고 명명했습니다.
GitHub에서 59,200개의 스타를 기록 중입니다. MIT 라이선스입니다. 11일 전에 업데이트되었습니다.
이것이 실질적인 차이를 만드는 이유입니다.
5초의 오디오만 있으면 제로샷 클로닝 (zero-shot cloning)이 가능합니다. 붙여넣고, 입력하고, 출력하세요. 별도의 학습 (training)이 필요 없습니다.
1분이면 전체 미세 조정 (full fine-tuning)이 가능합니다. 평균 의견 점수 (Mean Opinion Score)는 5점 만점에 4.2점입니다. 이는 연구자들이 30분 분량의 스튜디오 오디오로 학습시킨 모델에 부여하는 점수와 동일합니다.
교차 언어 (Cross-lingual) 지원. 영어 목소리로 학습시켜 일본어, 한국어, 광둥어 또는 만다린으로 말하게 할 수 있습니다. 목소리는 그대로 유지됩니다.
RTX 4090에서 4분 분량의 오디오를 3.36초 만에 생성합니다.
이제 비용 문제를 살펴보겠습니다.
ElevenLabs Creator: 연간 264달러.
ElevenLabs Pro: 연간 1,188달러.
ElevenLabs Business: 연간 15,840달러.
https://t.co/ewbP8kRz8E Creator: 연간 228달러.
Descript Pro: 연간 396달러.
모두 글자 수당 요금이 부과됩니다. 모두 당신의 목소리를 자신들의 서버에 저장합니다.
GPT-SoVITS는 0달러입니다. 당신의 GPU에서 실행됩니다. 무제한의 글자 수. 무제한의 목소리. 무제한의 언어. 당신의 오디오는 절대 당신의 기기를 떠나지 않습니다.
한 유튜버는 영상 하나당 일본어 성우에게 300달러를 지불합니다. GPT-SoVITS를 사용하면: 스크립트를 입력하면 당신의 목소리가 일본어로 읽어주며, 몇 분 안에 완성됩니다.
한 인디 게임 스튜디오는 50명의 NPC 목소리를 위해 10,000달러의 예산을 책정합니다. GPT-SoVITS를 사용하면: 캐릭터당 5초면 충분하며, 전기세 정도의 비용으로 50개의 고유한 목소리를 얻을 수 있습니다.
이 이름은 마케팅 용어가 아닙니다. 아키텍처 (architecture) 그 자체입니다. RVC 음성 변환 (voice-conversion) 라인에서 확장된, VITS 음향 모델 (acoustic model)에 연결된 GPT 스타일의 텍스트 인코더 (text encoder)입니다.
연간 15,840달러짜리 도구에 맞먹는, 당신의 목소리 60초만으로 방송 품질의 결과물을 만들어내는 오픈 소스 대안이 있습니다.
(링크는 댓글에)
[IMG:1]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @heynavtoor (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기