[audio.cpp] GGML의 소리 — C++/GGML 네이티브 ACE-Step, Stable Audio, HeartMuLa - Insights | Molayo

audio.cpp에 대규모 음악/오디오 확장 기능을 방금 출시했습니다.
이번 배치는 기존에 출시된 프레임워크 인터페이스에 음악 생성 (music generation), 효과음 생성 (SFX generation), 그리고 음원 분리 (source separation) 기능을 추가합니다:

새로 출시된 기능:

ACE-Step 1.5 Turbo / Base
HeartMuLa
Stable Audio 3 Small Music / SFX
Stable Audio 3 Medium
Mel-Band RoFormer
HTDemucs

보너스: HeartMuLa는 더 이상 이전의 짧은 제한에 갇혀 있지 않습니다. 이제 한 번의 실행으로 약 10분 분량의 오디오를 생성할 수 있습니다.

현재 프레임워크 진행 상황: 21 / 28 (75%)
이것은 더 이상 단순한 "C++ 기반 TTS"가 아닙니다. audio.cpp 릴리스는 이제 동일한 네이티브 C++/ggml 프레임워크 경로를 통해 음성 (speech), 목소리 (voice), ASR/VAD/화자 분리 (diarization), 음성 변환 (voice conversion), 음악/효과음 생성 (music/SFX generation), 그리고 음원 분리 (source separation)를 모두 다룰 수 있습니다.

ACE-Step Turbo, 600초 음악 생성 audio.cpp: 실제 소요 시간 (wall time) 60.16초, RTF 0.100, 실시간 대비 9.97배
Python: 실제 소요 시간 (wall time) 88.52초, RTF 0.148, 실시간 대비 6.78배

모든 것이 마법처럼 빨라진 것은 아닙니다. 제 테스트 결과 HTDemucs는 현재 Python 경로보다 느리며, Stable Audio의 초기 실행 (warm runs) 결과는 섞여 있습니다. 이를 숨기려는 의도는 없습니다. 이번 릴리스의 목적은 엔드 투 엔드 (end-to-end) 경로를 공유 프레임워크에 먼저 통합한 다음, 백엔드별 성능을 최적화하는 것입니다.

이 모델들을 장기 실행/서버 스타일 용도로 사용할 수 있는 메모리 절약 (mem_saver) 모드가 있습니다. 이 모드가 추론 (inference) 중의 절대적인 피크 (peak) 메모리를 항상 줄여주는 것은 아니지만, 속도에 큰 지장을 주지 않으면서 실행 후의 상주 VRAM (resident VRAM)을 줄일 수 있습니다.

저장소 (Repo): https://github.com/0xShug0/audio.cpp

다양한 GPU/CPU에서 이를 테스트해보시는 분들의 피드백을 간절히 기다립니다. 특히 긴 생성 (long generations), 특이한 프롬프트 (weird prompts), 스템 분리 (stem separation) 품질, 백엔드 문제, 성능 수치, 그리고 오류가 발생하는 모든 부분에 대한 피드백을 부탁드립니다.

제출자: /u/Acceptable-Cycle4645

Insights

[audio.cpp] GGML의 소리 — C++/GGML 네이티브 ACE-Step, Stable Audio, HeartMuLa

요약

핵심 포인트

댓글

모델 벤치마크가 아닌 인적 자본이 예측에서의 하이브리드 지능을 예측한다

역대 최다 인도인데 −7% 급락? 테슬라 2분기 48만 대의 반전 | 7/2 테슬라 브리핑

G-RRM: 순환 추론 모델(Recurrent Reasoning Models)을 이용한 심볼릭 솔버(Symbolic Solvers) 가이드

텍스트 노이즈 및 중복성 대응: 엔트로피 인지형 밀집 시각 토큰 프루닝 (Entropy-Aware Dense Visual Token

모델 벤치마크가 아닌 인적 자본이 예측에서의 하이브리드 지능을 예측한다

역대 최다 인도인데 −7% 급락? 테슬라 2분기 48만 대의 반전 | 7/2 테슬라 브리핑

G-RRM: 순환 추론 모델(Recurrent Reasoning Models)을 이용한 심볼릭 솔버(Symbolic Solvers) 가이드

텍스트 노이즈 및 중복성 대응: 엔트로피 인지형 밀집 시각 토큰 프루닝 (Entropy-Aware Dense Visual Token