Gemma 4 31B와 대화하기!
요약
Gemma 4 32B를 활용하여 음성 대화가 가능한 오픈 소스 파이프라인 데모를 소개합니다. Nvidia Parakeet, Cerebras 서빙, Qwen3TTS를 결합하여 OpenAI의 Realtime API를 대체할 수 있는 빠른 속도의 로컬 실행 환경을 구현했습니다.
핵심 포인트
- Gemma 4 32B 기반의 완전한 오픈 소스 음성 데모
- OpenAI Realtime API를 대체 가능한 수준의 낮은 지연 시간
- Nvidia Parakeet 및 Qwen3TTS를 활용한 파이프라인 구성
- MacBook Pro M3 등 로컬 환경에서도 실행 가능
안녕하세요! Hugging Face의 Andi입니다. 오늘 제가 가져온 것은 완전히 오픈 소스이며 테스트/다운로드/수정이 자유로운 데모입니다.
이것은 다음과 같은 파이프라인을 생성하는 음성 데모입니다:
- Nvidia의 parakeet
- Gemma 4 32B (cerebras를 통해 서빙됨!)
- Qwen3TTS를 위한 저의 커스텀 추론 (inference)
이것은 당신이 눈을 깜빡이는 것보다 더 빠르게 웹을 보고 검색합니다.
전체 스택은 완전히 오픈 소스이며, OpenAI의 realtime API를 즉시 대체할 수 있습니다. 로컬에서 실행할 수 있으며, 저는 MacBook Pro M3 36GB와 Gemma 4 E4B를 사용하여 유사한 지연 시간 (latency)을 얻었습니다.
영상에 소개된 웹 기반 데모는 모든 것이 클라우드에서 실행됩니다.
계속 지켜봐 주셨던 분들을 위해 말씀드리자면, 네, 이것이 reachy minis에서 실행되는 파이프라인입니다 :)
submitted by /u/futterneid
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기