OmniVoice: 자신의 GPU에서 실행 가능한 무료 Apache-2.0 기반 ElevenLabs 대안
요약
Apache-2.0 라이선스의 오픈 소스 음성 생성 모델인 OmniVoice와 Google Labs의 개인화된 스토리텔링 서비스 DreamBeans를 소개합니다. OmniVoice는 ElevenLabs의 강력한 대안으로 600개 이상의 언어와 빠른 생성 속도를 제공합니다.
핵심 포인트
- OmniVoice는 600개 이상의 언어를 지원하는 무료 오픈 소스 음성 모델임
- 음성 복제, 설계, 자동 생성의 세 가지 모드 제공
- 매우 빠른 RTF 0.025로 실시간에 가까운 오디오 생성 가능
- DreamBeans는 Google의 Nano Banana 2를 활용한 개인화된 일일 스토리 서비스
하루 만에 출시된 두 개의 AI
대부분의 사람들이 Claude Sonnet의 가격 책정에 대해 논쟁하는 동안, 진정으로 유용한 두 개의 AI 프로젝트가 출시되었습니다. 그리고 두 프로젝트 모두 자세히 살펴볼 가치가 있습니다.
1. OmniVoice — 오픈 소스 ElevenLabs 대안
OmniVoice는 Next-gen Kaldi(Xiaomi의 음성 연구소)를 개발한 팀인 k2-fsa에서 제작했습니다. Apache-2.0 라이선스를 따르며, 600개 이상의 언어를 지원하고, RTF(Real-Time Factor) 0.025로 실행됩니다. 이는 1초의 연산 시간 동안 40초 분량의 오디오를 생성할 수 있음을 의미합니다.
세 가지 모드:
- Voice Clone (음성 복제) — 단 3~10초의 참조 오디오만으로 어떤 목소리든 복제
- Voice Design (음성 설계) — 제어 항목(성별, 연령, 피치, 악센트, 방언)을 통해 음성 생성
- Auto Voice (자동 음성) — 모델이 직접 선택
설치:
pip install omnivoice
사용법:
from omnivoice import OmniVoice
model = OmniVoice.from_pretrained("k2-fsa/OmniVoice")
...
기본적으로 제공되는 CLI 도구: omnivoice-demo, omnivoice-infer, omnivoice-infer-batch.
아무것도 설치하지 않고 체험해보고 싶다면, HuggingFace Space를 통해 브라우저에서 샘플을 생성할 수 있습니다.
이것이 중요한 이유: ElevenLabs는 AI 음성의 사실상 표준(de facto) API이지만, 최소 월 약 $11의 비용이 들며 600개 이상의 언어 지원은 정말로 따라잡기 어려운 수준입니다. OmniVoice는 이 두 가지를 모두 뒤집습니다: 무료 + 더 넓은 커버리지 + 로컬 우선(local-first).
2. Google DreamBeans — 무한 스크롤에 반대하는 AI
DreamBeans는 2026년 6월 3일 Google Labs에서 출시되었습니다. 이 서비스는 사용자의 Gmail, Calendar, Photos, YouTube 및 검색 기록에 연결한 다음, Nano Banana 2(Google의 최신 이미지 생성 모델)를 사용하여 사용자의 삶에 관한 삽화가 포함된 한정된 일일 컬렉션의 이야기를 만들어냅니다.
흥미로운 점은 기술이 아니라 제품 결정입니다. Google은 명시적으로 이를 무한 스크롤(infinite scroll)로 만들지 않기로 선택했습니다. 사용자는 하루에 정해진 수의 이야기만 받게 되며, 그것으로 끝입니다.
60초 영상 가이드
모든 설치 명령어, 프롬프트(prompts), 그리고 링크가 포함된 무료 PDF 가이드가 포함되어 있습니다.
@gptaiclips와 팟캐스트에서 매주 더 많은 AI 심층 분석(deep-dives)을 만나보세요.
제휴 공지: 제 채널 설명에는 GoHighLevel 추천 링크가 포함되어 있으며, 귀하에게 추가 비용 없이 저는 수수료를 받을 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기