myshell-ai/OpenVoice
요약
OpenVoice는 정확한 톤 컬러 클로닝, 유연한 음성 스타일 제어, 그리고 Zero-shot 크로스 언어 음성 클로닝 기능을 제공하는 강력한 인스턴트 음성 클로닝 모델입니다. OpenVoice V2가 출시되면서 오디오 품질이 향상되었고, 영어, 스페인어, 프랑스어, 중국어, 일본어, 한국어를 포함한 네이티브 다국어 지원을 갖추게 되었습니다. 또한, V1과 V2 모두 MIT 라이선스로 상업적 및 연구 사용에 무료로 제공됩니다.
핵심 포인트
- OpenVoice는 톤 컬러 클로닝, 스타일 제어, Zero-shot 크로스 언어 기능을 지원하는 다재다능한 음성 클로닝 모델입니다.
- V2 버전은 향상된 오디오 품질과 함께 영어, 스페인어, 프랑스어, 중국어, 일본어, 한국어를 포함한 네이티브 다국어 지원을 제공합니다.
- OpenVoice V1 및 V2는 MIT 라이선스로 상업적 및 연구 목적으로 무료로 사용할 수 있습니다.
- 해당 모델은 TTS(Text-to-Speech)와 같은 기존 프로젝트에 통합하여 활용할 수 있습니다.
우리의 논문과 웹사이트에서 상세히 설명한 바와 같이, OpenVoice 의 장점은 세 가지입니다:
1. 정확한 톤 컬러 클로닝.
OpenVoice 는 참조 톤 컬러를 정확하게 복제하고 여러 언어 및 발음으로 음성 생성이 가능합니다.
2. 유연한 음성 스타일 제어.
감정 및 발음과 같은 음성 스타일을, 그리고 리듬, 침묵, 억양을 포함한 다른 스타일 파라미터에 대한 세밀한 제어를 가능하게 합니다.
3. Zero-shot 크로스 언어 음성 클로닝.
생성된 음성의 언어 또는 참조 음성의 언어는 대규모 다국어 훈련 데이터셋에 제시될 필요가 없습니다.
2024 년 4 월, 우리는 V1 의 모든 기능을 포함하고 다음을 제공하는 OpenVoice V2 를 출시했습니다:
1. 더 나은 오디오 품질.
OpenVoice V2 는 더 나은 오디오 품질을 제공하는 다른 훈련 전략을 채택했습니다.
2. 네이티브 다국어 지원.
영어, 스페인어, 프랑스어, 중국어, 일본어, 한국어는 OpenVoice V2 에서 내장되어 지원됩니다.
3. 무료 상업적 사용.
2024 년 4 월부터 V2 와 V1 은 MIT 라이선스 하에 출시되었습니다. 상업적 사용을 위해 무료입니다.
openvoice.mp4
OpenVoice 는 2023 년 5 월부터 myshell.ai 의 인스턴트 음성 클로닝 기능을 구동해 왔습니다. 2023 년 11 월까지, 음성 클로닝 모델은 전 세계 사용자들에 의해 수천만 번 사용되었으며 플랫폼의 폭발적인 사용자 성장을 목격했습니다.
- MIT 의 Zengyi Qin
- Tsinghua University 의 Wenliang Zhao
- Tsinghua University 의 Xumin Yu
- MyShell 의 Ethan Sun
상세한 지침은 사용법을 확인하세요.
일반적인 질문과 답변은 QA 를 확인하세요. 우리는 정기적으로 질문 및 답변 목록을 업데이트할 것입니다.
title={OpenVoice: Versatile Instant Voice Cloning},
author={Qin, Zengyi and Zhao, Wenliang and Yu, Xumin and Sun, Xin},
...
OpenVoice V1 과 V2 는 MIT 라이선스입니다. 상업적 및 연구 사용을 위해 무료입니다.
이 구현은 TTS, VITS, 그리고 VITS2 와 같은 몇 가지 훌륭한 프로젝트에 기반합니다. 그들의 멋진 작업에 감사드립니다!
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Python (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기