Gemma Avatar: Gemma 4-31B와 얼굴을 마주하며 대화하기
요약
Gemma 4 31B 모델을 활용하여 3D 아바타와 실시간 음성 대화가 가능한 시스템을 소개합니다. 오픈 모델 스택을 사용하여 사용자의 음성을 경청하고, LLM이 스스로 표정과 제스처를 결정하여 반응합니다.
핵심 포인트
- Gemma 4 31B를 기반으로 한 실시간 음성 및 얼굴 반응 시스템
- LLM이 함수 호출을 통해 아바타의 표정과 제스처를 직접 제어
- Silero VAD, Parakeet, Qwen3-TTS 등 오픈 모델 스택 활용
- Cerebras 서빙을 통한 매우 빠른 응답 속도 구현
이것은 3D 아바타와 대화할 수 있는 Gemma 4 31B와의 음성 채팅입니다. 사용자가 말하는 동안 경청하며, 목소리와 얼굴로 답변합니다 (아바타는 set_mood, make_hand_gesture, make_facial_expression과 같은 함수 도구(function tools)로서 LLM에 노출되어 있으며, Gemma가 스스로 표정을 결정합니다).
기술 스택은 모두 오픈 모델(open models)로 구성되어 있습니다: silero VAD, STT를 위한 parakeet, Gemma 4 31B (Cerebras를 통해 서빙되어 응답 속도가 매우 빠름), Qwen3-TTS. 일반 WebSocket을 통한 Raw PCM 방식을 사용합니다.
립싱크(lip-syncing) 및 아바타를 위해 met4citizen의 TalkingHead + HeadAudio (https://github.com/met4citizen/TalkingHead + https://github.com/met4citizen/HeadAudio)를 사용합니다.
submitted by /u/paf1138
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기