Hugging Face와 Cerebras, Gemma 4를 실시간 음성 AI에 도입
요약
Hugging Face와 Cerebras가 협력하여 Gemma 4를 활용한 실시간 음성-대-음성(speech-to-speech) 파이프라인을 공개했습니다. Cerebras의 빠른 추론 성능을 통해 지연 시간을 획기적으로 줄여 자연스러운 대화형 AI 경험을 제공합니다.
핵심 포인트
- Cerebras 추론을 통한 Gemma 4 기반의 초저지연 음성 AI 구현
- WebSocket 기반의 모듈식 실시간 음성-대-음성 파이프라인 구축
- Nvidia Parakeet, Gemma 4, Qwen 등 오픈 소스 스택 결합
- 로봇 및 체화된 AI(Embodied AI)를 위한 반응성 확보
HF 실시간 음성 (HF Realtime Voice)
WebSocket을 통한 HF 음성-대-음성 (speech-to-speech) 채팅
그 결과, 훨씬 더 자연스럽게 느껴지는 음성-대-음성 (speech-to-speech) 경험을 제공합니다. AI의 응답을 기다리는 대신, 사용자가 인간과의 상호작용에서 기대하는 반응 속도로 대화가 흘러갑니다.
이 데모는 실시간 음성-대-음성 (speech-to-speech) 파이프라인으로 구축되었습니다. 시스템의 각 부분은 모듈식이며, 공개되어 있고, 교체 가능하므로 개발자가 다양한 어시스턴트, 로봇, 제품 또는 연구 프로젝트에 맞춰 스택을 조정하기 쉽습니다.
이는 완전히 개방된 음성-대-음성 (speech-to-speech) 루프를 생성합니다:
음성 입력 (Speech input)
-> Nvidia의 Parakeet을 이용한 음성 인식 (speech recognition)
-> Cerebras 상의 Gemma 4 VLM 추론 (inference)
...
이 아키텍처는 오픈 소스 AI 생태계의 강점들을 결합합니다: 빠른 추론 (inference)을 위한 Cerebras, 언어 모델 (language model)을 위한 Google DeepMind의 Gemma 4 31B, 그리고 텍스트-대-음성 (text-to-speech)을 위한 Qwen. 모든 계층은 개발자에 의해 검사, 수정 및 확장될 수 있습니다.
오늘날 일부 프로덕션 시스템은 합리적인 중간 지연 시간 (median latency)을 보여주지만, P95(상위 5%)에서는 여전히 수 초간의 답답한 지연을 경험합니다. 이러한 지연은 도구 호출 (tool calls)이나 멀티모달 (multimodal) 단계가 여러 차례의 턴을 요구할 때 더욱 두드러집니다.
Cerebras는 스택에서 가장 중요한 병목 현상 중 하나인 언어 모델 (language-model) 응답 시간을 해결하는 데 도움을 줍니다. 추론 (inference)을 획기적으로 더 빠르고 안정적으로 만듦으로써, Cerebras는 Hugging Face 파이프라인의 나머지 부분들이 빛을 발할 수 있게 합니다.
그러한 안정성은 롱테일 (long tail) 구간에서 특히 중요합니다. 많은 시스템이 수용 가능한 중간 응답 시간을 제공할 수 있지만, 간헐적인 느린 응답은 여전히 대화를 신뢰할 수 없게 만듭니다.
이와 동일한 Hugging Face 음성-대-음성 (speech-to-speech) 파이프라인은 이미 9,000대 이상의 로봇이 현장에서 사용 중인 Reachy Mini 로봇에 적용되어 있습니다. 로봇, 음성 어시스턴트, 그리고 체화된 AI (embodied AI)에게 반응성은 단순한 미적 개선이 아닙니다. 그것은 상호작용이 살아있게 느껴지도록 만드는 핵심 요소입니다.
따라서 Cerebras를 사용하는 동기는 단순히 비용 절감에만 있는 것이 아닙니다. 그것은 낮은 지연 시간 (low latency), 예측 가능한 성능, 그리고 대규모 환경에서도 자연스럽게 느껴지는 실시간 경험을 창출할 수 있는 능력에 있습니다.
이번 협업은 AI의 미래가 개방적이면서도 성능이 뛰어날 것이라는 공동의 믿음을 반영합니다. 오픈 소스 모델 (open-source models), 개방형 인프라 (open infrastructure), 그리고 획기적인 추론 속도 (inference speed)가 결합되어 차세대 대화형 AI (conversational AI)를 위한 토대를 마련합니다.
개발자들이 데모를 탐색하고, 코드로 실험하며, 실시간 음성 AI (real-time voice AI)의 다음 단계를 함께 만들어 나가기를 기대합니다.
데모: Hugging Face Space
리포지토리 (Repository): huggingface/speech-to-speech
AI 자동 생성 콘텐츠
본 콘텐츠는 HuggingFace Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기