Magenta Realtime 2를 사용한 아두이노 기반 무한 음악 글리치 구현
요약
ESP32 마이크로컨트롤러와 MacBook M4 Pro를 활용하여 실시간 음성 기반 음악 글리치 세트를 구축했습니다. MLX Whisper가 사용자의 음성을 전사하고, VAD 감지 후 Qwen 모델이 이를 분석해 드럼 추가, 장르 변경 등 다양한 도구 호출을 결정합니다.
핵심 포인트
- ESP32를 이용한 로컬 오디오 스트리밍 및 제어 시스템 구축
- MLX Whisper와 VAD로 음성 입력 감지 및 전사 구현
- Qwen 모델의 Tool Calling 기능을 활용하여 음악적 변화 결정
- 실시간 상호작용이 가능한 에이전트형 음악 세트 시연
저는 ESP32 마이크로컨트롤러가 웹소켓(WebSockets)을 통해 MacBook과 통신하는 로컬 음성 AI 실시간 음악 세트를 구축했습니다. 이 마이크로컨트롤러는 마이크와 스피커가 달린 작은 아두이노 기반 장치이며, MacBook M4 Pro에서 Magenta Realtime 2를 로컬로 실행하고 오디오를 해당 장치로 스트리밍합니다.
재미있는 점은 이것이 에이전트적(agentic)이고 대화형이라는 것입니다. 따라서 ESP32를 터치하고 말하면, MLX Whisper가 제가 말한 내용을 전사(transcribe)합니다. 그런 다음 VAD(Voice Activity Detection)를 감지한 후, 이 데이터를 Qwen 모델로 보내어 드럼 추가, 음악을 Lo-fi로 변경, 재즈 베밥(Jazz bebop) 추가, 기타 제거 또는 음악의 악기 변경과 같은 어떤 도구 호출(tool call)을 할지 결정합니다.
GitHub 링크: https://github.com/akdeb/jambox
Hugging Face 링크: https://huggingface.co/google/magenta-realtime-2
제출자 /u/hwarzenegger
[링크] [댓글]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기