Magenta Realtime 2를 사용한 아두이노 기반 무한 음악 글리치 구현

저는 ESP32 마이크로컨트롤러가 웹소켓(WebSockets)을 통해 MacBook과 통신하는 로컬 음성 AI 실시간 음악 세트를 구축했습니다. 이 마이크로컨트롤러는 마이크와 스피커가 달린 작은 아두이노 기반 장치이며, MacBook M4 Pro에서 Magenta Realtime 2를 로컬로 실행하고 오디오를 해당 장치로 스트리밍합니다.

재미있는 점은 이것이 에이전트적(agentic)이고 대화형이라는 것입니다. 따라서 ESP32를 터치하고 말하면, MLX Whisper가 제가 말한 내용을 전사(transcribe)합니다. 그런 다음 VAD(Voice Activity Detection)를 감지한 후, 이 데이터를 Qwen 모델로 보내어 드럼 추가, 음악을 Lo-fi로 변경, 재즈 베밥(Jazz bebop) 추가, 기타 제거 또는 음악의 악기 변경과 같은 어떤 도구 호출(tool call)을 할지 결정합니다.

GitHub 링크: https://github.com/akdeb/jambox
Hugging Face 링크: https://huggingface.co/google/magenta-realtime-2
제출자 /u/hwarzenegger
[링크] [댓글]

Insights

Magenta Realtime 2를 사용한 아두이노 기반 무한 음악 글리치 구현

요약

핵심 포인트

댓글

기술주 투자자들에게는 2028년은 되어야 해소될 1조 달러 규모의 문제가 있다

장시간 에이전트가 스스로 작성하는 요약을 강화학습으로 단련하는 CompactionRL

Kimi K3의 역설: 아무도 실제로 실행할 수 없는 세계에서 가장 강력한 오픈 AI 모델

Daytona와 Deep Agents를 사용하여 스레드 범위의 AI 데이터 과학 샌드박스 구축하기

장시간 에이전트가 스스로 작성하는 요약을 강화학습으로 단련하는 CompactionRL

Kimi K3의 역설: 아무도 실제로 실행할 수 없는 세계에서 가장 강력한 오픈 AI 모델

Daytona와 Deep Agents를 사용하여 스레드 범위의 AI 데이터 과학 샌드박스 구축하기