28K Star 돌파! 완전 로컬 AI 보이스 스튜디오 「Voicebox」가 대단하다

원문 발행 2026. 05. 26. 18:45원문 언어 일본어AI 한국어 번역Qiita AI 원문 보기

요약

Voicebox는 ElevenLabs와 WisprFlow의 기능을 통합한 완전 로컬 AI 보이스 스튜디오입니다. MCP 서버를 내장하여 Claude Code나 Cursor 같은 AI 에이전트와 연동할 수 있으며, 음성 클로닝과 페르소나 설정 기능을 제공합니다.

핵심 포인트

완전 로컬 동작으로 프라이버시 보호 및 구독료 절감
MCP 서버 내장으로 Claude Code 등 AI 에이전트와 연동 가능
7가지 TTS 엔진과 23개 언어 지원
음성 클로닝 및 페르소나 기반 말투 커스터마이징 지원
Apple Silicon MLX 최적화로 빠른 처리 속도 제공

목소리를 클로닝하여 AI 음성을 만든다면 ElevenLabs, 음성 입력이라면 WisprFlow. 둘 다 훌륭한 도구이지만, 월간 구독료와 음성 데이터의 클라우드 업로드는 무시할 수 없는 장벽이다.

2026년 5월, GitHub에서 28,500 Star를 획득한 Voicebox라는 프로젝트가 주목을 받고 있다. MIT 라이선스, 완전 로컬 동작. ElevenLabs(음성 출력)와 WisprFlow(음성 입력)의 기능을 하나의 앱으로 통합하고, 로컬 LLM으로 이들을 연결한 AI 보이스 스튜디오다.

ElevenLabs의 대안을 찾고 있는 개발자
AI Agent에 음성 출력 기능을 추가하고 싶은 분
프라이버시를 중시하여 음성 데이터를 클라우드로 보내고 싶지 않은 분

단 몇 초의 레퍼런스 음성을 업로드하는 것만으로 자신의 목소리 모델을 만들 수 있다. 23개 언어를 지원하며 영어, 중국어, 일본어, 아랍어, 힌디어, 스와힐리어 등 폭넓게 커버한다.

7가지 TTS 엔진 내장:

엔진	강점
Chatterbox Turbo	`[laugh]` `[sigh]` `[gasp]`와 같은 감정 태그 대응
Qwen3-TTS	다국어 클로닝, "천천히 말해줘", "속삭이는 목소리로" 등의 자연어 지시 이해
Kokoro	82M의 경량 모델, CPU에서도 빠르게 동작, 50개의 프리셋 음성
LuxTTS	약 1GB VRAM, 48kHz, CPU에서 150배 실시간 처리
TADA	HumeAI의 음성 언어 모델, 700초 이상의 일관된 음성 생성
Chatterbox Multilingual	23개 언어 모두 대응
Qwen CustomVoice	레퍼런스 음성 불필요, 9개의 프리셋 음성

음성 클로닝이 필요하지 않다면 50개 이상의 프리셋 음성을 즉시 사용할 수 있다. 생성된 음성은 Spotify의 Pedalboard 라이브러리를 사용한 이펙트 패널(리버브, 딜레이, 컴프레서, 피치 시프트, 코러스)을 통해 실시간으로 조정 가능하다.

Voicebox의 가장 주목할 만한 기능은 MCP (Model Context Protocol) 서버의 내장이다.

Claude Code, Cursor, Cline, Windsurf 등 MCP 대응 AI Agent라면 한 줄의 명령어로 Voicebox를 호출할 수 있다:

claude mcp add voicebox \
--transport http \
--url http://127.0.0.1:17493/mcp \
...

설정 후, Claude Code가 클로닝한 목소리로 "테스트 통과, 머지 가능합니다"라고 말을 걸어온다.

여러 Agent에게 서로 다른 목소리를 할당하는 것도 가능하다. 코드 리뷰어용 목소리, 배포 봇용 목소리 등—구분이 가능하다.

나아가 「인격화」 기능도 강력하다. 각 음성에 「냉철한 엔지니어」, 「독설가 코드 리뷰어」와 같은 페르소나를 설정하면, 로컬 LLM이 Agent의 발언을 해당 페르소나에 맞춰 다시 작성한 후 음성을 합성한다. 목소리뿐만 아니라 말투 그 자체를 커스터마이징할 수 있다.

핫키를 누른 채 말하고 떼면 현재 포커스된 텍스트 필드에 자동으로 붙여넣기 된다. macOS에서는 Accessibility API를 사용하여 클립보드를 오염시키지 않고 정확한 붙여넣기를 실현한다.

음성 인식은 Whisper 기반의 완전 로컬 처리 방식이다. 옵션인 LLM Refinement를 통해 "에~", "그게~"와 같은 필러(filler)를 제거할 수 있다.

플랫폼	백엔드
Apple Silicon	MLX (Metal, 4~5배 빠름)
...

macOS용 DMG, Windows용 MSI 설치 프로그램을 제공한다. 최초 실행 시 필요한 모델을 자동으로 다운로드한다. Kokoro는 82MB, Qwen3-TTS는 수 GB 규모다. REST API와 MCP Server는 localhost:17493에서 동작하며, 문서는 http://127.0.0.1:17493/docs에서 확인할 수 있다.

음성 I/O의 로컬화는 시간문제였다. 클라우드의 편의성은 인정하지만, 음성 데이터는 생체 정보이며 유출되었을 때의 리스크는 비밀번호 유출에 필적한다.

지난 2년 동안 오픈소스 TTS (Text-to-Speech), STT (Speech-to-Text), LLM (Large Language Model)은 소비자용 하드웨어에서도 충분히 실용적인 품질에 도달했다. Voicebox는 그 집대성이라고도 할 수 있는 프로젝트다.

AI Agent (AI 에이전트)는 더 이상 무기질적인 텍스트 박스일 필요가 없다. 말하고, 감정을 가지며, 인격을 갖춘 협업 파트너로——Voicebox는 그 가능성을 보여주고 있다.

AI 자동 생성 콘텐츠

원문 바로가기

Insights

28K Star 돌파! 완전 로컬 AI 보이스 스튜디오 「Voicebox」가 대단하다

요약

핵심 포인트

댓글

Alvopetro Energy, 판매량 증가에 따라 2분기 매출 및 현금 흐름 증가 보고

Etsy 감원: Kruti Patel Goyal CEO, 인력의 12% 감축, 2026년 2분기

M3 Ultra 512GB에서 MiniMax-H3 실측: 소리 포함 5초 영상을 35분 만에 생성

Auto-fit vs 튜닝된 MoE 오프로드: 564 → 1330 pp tok/s, 디코딩 속도는 동일 (Qwen3.6-35B-A3B Q6 /

Etsy 감원: Kruti Patel Goyal CEO, 인력의 12% 감축, 2026년 2분기

M3 Ultra 512GB에서 MiniMax-H3 실측: 소리 포함 5초 영상을 35분 만에 생성

Auto-fit vs 튜닝된 MoE 오프로드: 564 → 1330 pp tok/s, 디코딩 속도는 동일 (Qwen3.6-35B-A3B Q6 /