본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 27. 05:51

안녕하세요! (다시 왔습니다) 여러분의 프로젝트에서 사용할 수 있도록 제가 만든 kokoro 개선 사항들을 포팅했습니다.

요약

kokoro 모델의 음성 컨트롤 기능을 개선하여 웹 및 파이썬 기반 버전으로 공개했습니다. WebGPU를 활용한 하드웨어 가속을 통해 클라이언트 측에서 매우 빠른 속도로 동작합니다.

핵심 포인트

  • Web 및 Python 기반의 개선된 kokoro 컨트롤 버전 제공
  • WebGPU 활용 시 생성당 약 40ms의 빠른 속도 구현
  • 완전한 클라이언트 측 동작으로 프라이버시 및 효율성 증대
  • Hugging Face의 300MB FP32 모델 사용

저는 kokoro의 컨트롤(controls)에 대해 제가 만든 개선 사항들을 웹 기반(web based) 및 파이썬 기반(python based) 버전으로 제작했습니다. 물론 두 버전 모두 완전히 클라이언트 측(client side)에서 동작합니다. 브라우저에서 하드웨어 가속(hardware acceleration)을 켜두었다면, kokoro는 WebGPU 상에서 생성당 약 40ms의 속도로 실행됩니다. 정말 빠릅니다.

참고: GitHub 페이지는 Hugging Face에서 300MB 크기의 kokoro FP32 모델을 로드합니다.

꽤 많은 kokoro 프로젝트들을 보아왔는데, 개선된 음성 컨트롤(voice controls)이 있다면 모두 더 좋아질 수 있다고 생각합니다. 이것들은 여러분의 프로젝트에 포팅할 수 있도록 만든 최소한의 버전들입니다. 즐겁게 사용하세요!

제출자: /u/what_eve
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0