Hugging Face와 Cerebras, Gemma 4를 실시간 음성 AI에 도입

HF 실시간 음성 (HF Realtime Voice)

WebSocket을 통한 HF 음성-대-음성 (speech-to-speech) 채팅

그 결과, 훨씬 더 자연스럽게 느껴지는 음성-대-음성 (speech-to-speech) 경험을 제공합니다. AI의 응답을 기다리는 대신, 사용자가 인간과의 상호작용에서 기대하는 반응 속도로 대화가 흘러갑니다.

이 데모는 실시간 음성-대-음성 (speech-to-speech) 파이프라인으로 구축되었습니다. 시스템의 각 부분은 모듈식이며, 공개되어 있고, 교체 가능하므로 개발자가 다양한 어시스턴트, 로봇, 제품 또는 연구 프로젝트에 맞춰 스택을 조정하기 쉽습니다.

이는 완전히 개방된 음성-대-음성 (speech-to-speech) 루프를 생성합니다:

음성 입력 (Speech input)
-> Nvidia의 Parakeet을 이용한 음성 인식 (speech recognition)
-> Cerebras 상의 Gemma 4 VLM 추론 (inference)
...

이 아키텍처는 오픈 소스 AI 생태계의 강점들을 결합합니다: 빠른 추론 (inference)을 위한 Cerebras, 언어 모델 (language model)을 위한 Google DeepMind의 Gemma 4 31B, 그리고 텍스트-대-음성 (text-to-speech)을 위한 Qwen. 모든 계층은 개발자에 의해 검사, 수정 및 확장될 수 있습니다.

오늘날 일부 프로덕션 시스템은 합리적인 중간 지연 시간 (median latency)을 보여주지만, P95(상위 5%)에서는 여전히 수 초간의 답답한 지연을 경험합니다. 이러한 지연은 도구 호출 (tool calls)이나 멀티모달 (multimodal) 단계가 여러 차례의 턴을 요구할 때 더욱 두드러집니다.

Cerebras는 스택에서 가장 중요한 병목 현상 중 하나인 언어 모델 (language-model) 응답 시간을 해결하는 데 도움을 줍니다. 추론 (inference)을 획기적으로 더 빠르고 안정적으로 만듦으로써, Cerebras는 Hugging Face 파이프라인의 나머지 부분들이 빛을 발할 수 있게 합니다.

그러한 안정성은 롱테일 (long tail) 구간에서 특히 중요합니다. 많은 시스템이 수용 가능한 중간 응답 시간을 제공할 수 있지만, 간헐적인 느린 응답은 여전히 대화를 신뢰할 수 없게 만듭니다.

이와 동일한 Hugging Face 음성-대-음성 (speech-to-speech) 파이프라인은 이미 9,000대 이상의 로봇이 현장에서 사용 중인 Reachy Mini 로봇에 적용되어 있습니다. 로봇, 음성 어시스턴트, 그리고 체화된 AI (embodied AI)에게 반응성은 단순한 미적 개선이 아닙니다. 그것은 상호작용이 살아있게 느껴지도록 만드는 핵심 요소입니다.

따라서 Cerebras를 사용하는 동기는 단순히 비용 절감에만 있는 것이 아닙니다. 그것은 낮은 지연 시간 (low latency), 예측 가능한 성능, 그리고 대규모 환경에서도 자연스럽게 느껴지는 실시간 경험을 창출할 수 있는 능력에 있습니다.

이번 협업은 AI의 미래가 개방적이면서도 성능이 뛰어날 것이라는 공동의 믿음을 반영합니다. 오픈 소스 모델 (open-source models), 개방형 인프라 (open infrastructure), 그리고 획기적인 추론 속도 (inference speed)가 결합되어 차세대 대화형 AI (conversational AI)를 위한 토대를 마련합니다.

개발자들이 데모를 탐색하고, 코드로 실험하며, 실시간 음성 AI (real-time voice AI)의 다음 단계를 함께 만들어 나가기를 기대합니다.

데모: Hugging Face Space

리포지토리 (Repository): huggingface/speech-to-speech

Insights

Hugging Face와 Cerebras, Gemma 4를 실시간 음성 AI에 도입

요약

핵심 포인트

HF 실시간 음성 (HF Realtime Voice)

댓글

모델이 작성할 수 없는 것에 대한 게이트 (댓글 섹션이 나의 신뢰 모델을 재설계했다)

SpaceXAI, 노코드 (no-code) 음성 에이전트 빌더 출시

AdaBoost 밑바닥부터 구현하기: 멍청한 규칙들의 모임이 어떻게 똑똑한 분류기가 되는가

모델이 작성할 수 없는 것에 대한 게이트 (댓글 섹션이 나의 신뢰 모델을 재설계했다)

SpaceXAI, 노코드 (no-code) 음성 에이전트 빌더 출시

AdaBoost 밑바닥부터 구현하기: 멍청한 규칙들의 모임이 어떻게 똑똑한 분류기가 되는가