r/LocalLLaMA릴리즈2026. 05. 03. 03:56

[RELEASE] 드디어 첫 번째 TTS 모델 출시! 🎙️ Flare-TTS 28M

요약

Flare-TTS 28M은 LJSpeech 데이터셋을 사용하여 처음부터 완전히 학습된 최초의 텍스트 음성 변환(TTS) 모델입니다. 이 모델은 단일 A6000 GPU에서 약 24시간, 300 에포크에 걸쳐 개발되었으며, 현재 Hugging Face를 통해 무료로 공개되었습니다. 사용자는 예시 결과와 함께 오픈소스 형태로 해당 모델을 활용할 수 있습니다.

핵심 포인트

Flare-TTS 28M은 LJSpeech 데이터셋으로 처음부터 학습된 최초의 TTS 모델입니다.
모델 학습에는 단일 A6000 GPU를 사용하여 약 24시간, 300 에포크가 소요되었습니다.
해당 모델은 Hugging Face에서 무료로 제공되는 오픈소스 프로젝트입니다.
사용자는 예시 오디오 링크를 통해 모델의 음성 출력을 확인할 수 있습니다.

안녕하세요 r/LocalLLaMA!

새로운 모델로 돌아왔습니다. 오늘 소개할 것은 특별합니다 😃

Flare-TTS 28M 입니다. 이 모델은 단일 A6000 GPU 에서 약 24 시간, 약 300 에포크 (epochs) 동안 전체 LJSpeech 데이터셋을 사용하여 처음부터 완전히 학습된 첫 번째 텍스트 음성 변환 (TTS, text to speech) 모델입니다.

HF 모델 링크: https://huggingface.co/LH-Tech-AI/Flare-TTS-28M

예시 결과:
https://cdn-uploads.huggingface.co/production/uploads/697f2832c2c5e4daa93cece7/vluuHSnp9Ietk7Uk1-hvG.mpga

영어를 말하지만, 여전히 약간 로봇처럼 들립니다 😂
원하시는 대로 사용하세요. 무료이며 오픈소스입니다 😃
즐거운 하루 되세요 ❤️

AI 자동 생성 콘텐츠

원문 바로가기

[RELEASE] 드디어 첫 번째 TTS 모델 출시! 🎙️ Flare-TTS 28M

요약

핵심 포인트

댓글