본문으로 건너뛰기

© 2026 Molayo

X Home요약2026. 05. 14. 19:26

로컬에서 실행되는 오픈소스 TTS가 ElevenLabs를 제쳤습니다.

요약

로컬에서 구동되는 오픈소스 TTS 모델인 Supertonic이 ElevenLabs를 능가하는 성능을 보여주었습니다. 이 모델은 인터넷 연결 없이도 작동하며, 99M 파라미터임에도 M4 Pro에서 실시간보다 167배 빠른 속도를 자랑합니다. 또한, 31개 언어를 지원하고 클라우드 서비스의 오독률이 높은 특정 콘텐츠(예: 금액, 기술 단위)까지 정확하게 읽어내는 것이 특징입니다.

핵심 포인트

  • Supertonic은 완전히 로컬에서 실행되는 오픈소스 TTS 모델로, 인터넷 연결이나 API 비용이 전혀 들지 않습니다.
  • 99M 파라미터 규모임에도 M4 Pro 환경에서 실시간보다 167배 빠른 속도를 보여주며 라즈베리 파이 등 저사양 기기에서도 구동 가능합니다.
  • 영어, 중국어, 일본어, 한국어를 포함한 31개 언어를 지원하며, 클라우드 서비스가 자주 오독하는 금액이나 기술 단위 같은 전문 용어도 정확하게 읽습니다.
  • 브라우저 플러그인 형태로 웹페이지를 음성으로 변환할 수 있으며, 처리 속도가 매우 빠릅니다.

로컬에서 실행되는 오픈소스 TTS가 ElevenLabs를 제쳤습니다.

Supertonic, 완전히 로컬에서 실행되는 음성 합성 모델, 인터넷 연결 불필요, API 비용 제로.

  • 단 99M 파라미터, M4 Pro에서 실시간보다 167배 빠름, 라즈베리 파이에서도 실행 가능
  • 31개 언어 지원, 영어, 중국어, 일본어, 한국어 등 주류 언어 포함
  • 금액, 전화번호, 기술 단위 등 주류 클라우드 서비스에서 자주 잘못 읽는 내용, 전부 정확히 읽음
  • 브라우저 플러그인으로 임의 웹페이지를 음성으로 변환, 1초도 안 걸림

GitHub:
https://
github.com/supertone-inc/
supertonic

Python, Node.js, Rust, Go 등 11개 런타임 지원, 한 줄 명령어로 설치 완료.

AI 제품에 음성 기능을 추가하고 싶지만 클라우드 서비스 API 비용에 목이 조이는 친구들, 이거 한번 보세요.

AI 자동 생성 콘텐츠

본 콘텐츠는 X 홈 추천 피드의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0