A C++ port of Echo-TTS
요약
Echo-TTS는 스피커 참조 조건화 기능을 갖춘 다중 스피커 TTS 모델입니다. 이 기술 기사는 Echo-TTS를 C++로 포팅한 버전을 소개하며, CUDA 환경에서 GPU 가속을 활용합니다. GGML과 ONNX Runtime 같은 최적화된 라이브러리를 사용하여 효율성을 높였으며, 오픈 AI 호환 서버 모드와 다양한 생성 옵션을 제공합니다.
핵심 포인트
- Echo-TTS를 C++로 포팅하여 성능 및 접근성을 개선했습니다.
- 스피커 참조 조건화를 통해 여러 화자의 음성 생성이 가능합니다 (다중 스피커 지원).
- CUDA, GGML, ONNX Runtime 등 최신 라이브러리를 활용하여 GPU 기반의 고효율 추론 환경을 구축했습니다.
- 오픈 AI 호환 서버 모드를 지원하며, 블록 기반 생성 및 컨티뉴에이션 모드 등의 고급 기능을 제공합니다.
Echo-TTS (https://github.com/jordandare/echo-tts) 의 C++ 포팅 - 스피커 참조 조건화 (speaker reference conditioning) 를 갖춘 다중 스피커 TTS 모델입니다. CUDA 를 통해 GPU 상에서 실행되며, 확산 트랜스포머 (diffusion transformer) 에는 GGML 을, DAC 자동엔코더에는 ONNX Runtime 을 사용합니다.
Highlights:
- ~3.3 GB (Q8) 또는 ~5.6 GB (F16) 모델 파일
- 오픈 AI 호환 서버 모드 (chunking 포함)
- 참조 WAV 조건화를 통한 다중 음성 지원
- CUDA 12.8, cuDNN 9.21, ONNX Runtime 을 포함한 사전 구축된 포터블 ZIP 파일 제공
- Euler 샘플링 및 설정 가능한 CFG, 블록 기반 생성, 컨티뉴이션 모드
Links:
- 코드: github.com/Cirius0310/echo-tts-cpp
- 모델: huggingface.co/tmdarkbr/echo-tts-gguf
- 예제: (https://github.com/Cirius0310/echo-tts-cpp/tree/master/examples)
참고: 현재는 Windows 에서만 테스트 완료, Linux 는 YMMV 입니다.
Credits:
- Echo-TTS by Jordan Darefsky
- GGML by ggerganov & contributors
- Fish Speech S1-DAC 자동엔코더
- WhisperD 텍스트 포맷
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기