[audio.cpp] GGML의 소리 — C++/GGML 네이티브 ACE-Step, Stable Audio, HeartMuLa
요약
audio.cpp가 GGML 기반의 대규모 오디오 확장 기능을 출시했습니다. 음악 및 효과음 생성, 음원 분리 기능을 포함하며, C++/GGML 네이티브 경로를 통해 기존 Python 대비 빠른 추론 성능을 제공합니다.
핵심 포인트
- ACE-Step, Stable Audio 3 등 최신 오디오 모델 지원
- C++/GGML 네이티브 구현으로 Python 대비 높은 추론 속도 확보
- 음악 생성, 효과음 생성, 음원 분리 등 통합 프레임워크 제공
- 메모리 절약(mem_saver) 모드를 통한 VRAM 관리 기능 지원
audio.cpp에 대규모 음악/오디오 확장 기능을 방금 출시했습니다.
이번 배치는 기존에 출시된 프레임워크 인터페이스에 음악 생성 (music generation), 효과음 생성 (SFX generation), 그리고 음원 분리 (source separation) 기능을 추가합니다:
새로 출시된 기능:
- ACE-Step 1.5 Turbo / Base
- HeartMuLa
- Stable Audio 3 Small Music / SFX
- Stable Audio 3 Medium
- Mel-Band RoFormer
- HTDemucs
보너스: HeartMuLa는 더 이상 이전의 짧은 제한에 갇혀 있지 않습니다. 이제 한 번의 실행으로 약 10분 분량의 오디오를 생성할 수 있습니다.
현재 프레임워크 진행 상황: 21 / 28 (75%)
이것은 더 이상 단순한 "C++ 기반 TTS"가 아닙니다. audio.cpp 릴리스는 이제 동일한 네이티브 C++/ggml 프레임워크 경로를 통해 음성 (speech), 목소리 (voice), ASR/VAD/화자 분리 (diarization), 음성 변환 (voice conversion), 음악/효과음 생성 (music/SFX generation), 그리고 음원 분리 (source separation)를 모두 다룰 수 있습니다.
ACE-Step Turbo, 600초 음악 생성 audio.cpp: 실제 소요 시간 (wall time) 60.16초, RTF 0.100, 실시간 대비 9.97배
Python: 실제 소요 시간 (wall time) 88.52초, RTF 0.148, 실시간 대비 6.78배
모든 것이 마법처럼 빨라진 것은 아닙니다. 제 테스트 결과 HTDemucs는 현재 Python 경로보다 느리며, Stable Audio의 초기 실행 (warm runs) 결과는 섞여 있습니다. 이를 숨기려는 의도는 없습니다. 이번 릴리스의 목적은 엔드 투 엔드 (end-to-end) 경로를 공유 프레임워크에 먼저 통합한 다음, 백엔드별 성능을 최적화하는 것입니다.
이 모델들을 장기 실행/서버 스타일 용도로 사용할 수 있는 메모리 절약 (mem_saver) 모드가 있습니다. 이 모드가 추론 (inference) 중의 절대적인 피크 (peak) 메모리를 항상 줄여주는 것은 아니지만, 속도에 큰 지장을 주지 않으면서 실행 후의 상주 VRAM (resident VRAM)을 줄일 수 있습니다.
저장소 (Repo): https://github.com/0xShug0/audio.cpp
다양한 GPU/CPU에서 이를 테스트해보시는 분들의 피드백을 간절히 기다립니다. 특히 긴 생성 (long generations), 특이한 프롬프트 (weird prompts), 스템 분리 (stem separation) 품질, 백엔드 문제, 성능 수치, 그리고 오류가 발생하는 모든 부분에 대한 피드백을 부탁드립니다.
제출자: /u/Acceptable-Cycle4645
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기