Qwen3-tts.cpp + Compose Desktop GUI
요약
Qwen3-TTS를 GGML 기반으로 구현하여 실시간 속도를 5배 개선한 qwen3-tts.cpp와 이를 위한 Kotlin Compose Desktop GUI 프로젝트를 소개합니다. Python 레퍼런스 대비 15배 빠른 속도를 자랑하며 음성 복제 및 스트리밍 기능을 지원합니다.
핵심 포인트
- GGML 기반 구현으로 Python 대비 약 15배 빠른 속도 달성
- Kotlin Compose Multiplatform을 활용한 데스크톱 GUI 제공
- 음성 복제(Voice Cloning) 및 화자 임베딩 혼합 기능 지원
- Windows 및 Linux 환경의 CPU/CUDA 최적화
제 RTX 5080에서 qwen3-tts.cpp 구현을 약 5배의 실시간 속도(5x realtime)로 개선했습니다. GGML 기반이므로 어디에서나 컴파일 및 실행이 가능해야 하지만, 저는 Windows 및 Linux 환경의 CPU 및 CUDA에서만 테스트했습니다: https://github.com/Danmoreng/qwen3-tts.cpp
추가로 Kotlin Compose Multiplatform을 사용하여 Windows 및 Linux에서 작동하는 데스크톱 GUI를 제작했습니다: https://github.com/Danmoreng/qwen-tts-studio
직접 다운로드하여 실행할 수 있는 Windows 릴리스가 존재합니다. Linux는 소스에서 직접 빌드해야 합니다.
Qwen-TTS-Studio
기능:
- 제가 아는 가장 빠른 GGML 구현체, Python 레퍼런스보다 15배 빠름
- 0.6B 및 1.7B 모델
- 음성 복제 (voice cloning) 기능이 포함된 베이스 모델
- 지침(instructions)이 포함된 customvoice 모델
- 지침(instructions)이 포함된 voicedesign
- 화자 임베딩 (speaker embeddings) 저장
- 화자 임베딩 혼합 및 병합 (mix & merge)
- 스트리밍 (반정확한 텍스트 하이라이팅 포함)
- huggingface(https://huggingface.co/Serveurperso/Qwen3-TTS-GGUF)에서 사전 변환된 GGUF 모델을 다운로드할 수 있는 옵션 포함
submitted by /u/Danmoreng
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기