[RELEASE] 드디어 첫 번째 TTS 모델 출시! 🎙️ Flare-TTS 28M
요약
Flare-TTS 28M은 LJSpeech 데이터셋을 사용하여 처음부터 완전히 학습된 최초의 텍스트 음성 변환(TTS) 모델입니다. 이 모델은 단일 A6000 GPU에서 약 24시간, 300 에포크에 걸쳐 개발되었으며, 현재 Hugging Face를 통해 무료로 공개되었습니다. 사용자는 예시 결과와 함께 오픈소스 형태로 해당 모델을 활용할 수 있습니다.
핵심 포인트
- Flare-TTS 28M은 LJSpeech 데이터셋으로 처음부터 학습된 최초의 TTS 모델입니다.
- 모델 학습에는 단일 A6000 GPU를 사용하여 약 24시간, 300 에포크가 소요되었습니다.
- 해당 모델은 Hugging Face에서 무료로 제공되는 오픈소스 프로젝트입니다.
- 사용자는 예시 오디오 링크를 통해 모델의 음성 출력을 확인할 수 있습니다.
안녕하세요 r/LocalLLaMA!
새로운 모델로 돌아왔습니다. 오늘 소개할 것은 특별합니다 😃
Flare-TTS 28M 입니다. 이 모델은 단일 A6000 GPU 에서 약 24 시간, 약 300 에포크 (epochs) 동안 전체 LJSpeech 데이터셋을 사용하여 처음부터 완전히 학습된 첫 번째 텍스트 음성 변환 (TTS, text to speech) 모델입니다.
HF 모델 링크: https://huggingface.co/LH-Tech-AI/Flare-TTS-28M
영어를 말하지만, 여전히 약간 로봇처럼 들립니다 😂
원하시는 대로 사용하세요. 무료이며 오픈소스입니다 😃
즐거운 하루 되세요 ❤️
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기