본문으로 건너뛰기

© 2026 Molayo

GitHub요약2026. 04. 26. 08:49

Willow Inference Server: 오픈소스 로컬 AI 추론 서버

요약

Toverainc가 공개한 Willow Inference Server는 CUDA 기반의 고태성 오픈소스 AI 추론 서버입니다. Whisper, Vicuna, Llama 등 다양한 ASR(STT), TTS, LLM 모델을 WebRTC, REST API, WebSocket 프로토콜을 통해 로컬 환경에서 실행할 수 있습니다. 데이터 프라이버시를 중시하며 온프레미스 배포를 원하는 개발자와 조직에게 최적화된 솔루션입니다.

핵심 포인트

  • CUDA 가속화를 지원하여 Whisper, Vicuna, Llama 등 다양한 AI 모델을 고태성으로 로컬에서 실행합니다.
  • ASR(STT), TTS, LLM 기능을 WebRTC, REST API, WebSocket 세 가지 프로토콜로 통합 제공합니다.
  • 오픈소스 및 자체 호스팅 방식으로 데이터 프라이버시와 온프레미스 배포를 보장합니다.

toverainc/willow-inference-server

Repository: toverainc/willow-inference-server

기본 정보

  • Language: Python
  • Stars: 499
  • Forks: 58

주요 토픽 (Topics)

  • cuda, deep-learning, llama, llm, privacy, speech-recognition, speech-to-text, text-to-speech, vicuna, webrtc, whisper, willow

설명 (Description)

오픈소스, 로컬, 자체 호스팅 방식으로 구축된 고태성 언어 추론 서버로, WebRTC, REST, WS를 통해 ASR/STT(음성 인식/텍스트 변환), TTS(텍스트 음성 변환), LLM(대규모 언어 모델)을 모두 지원합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub ML Hardware의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0