[audio.cpp] VibeVoice 1.5B 출시 — 90분 분량의 팟캐스트를 22.95분 만에 생성, 실시간 대비 4.08배, 양자화
요약
audio.cpp 제작자가 VibeVoice 1.5B 모델 지원을 발표하며, C++/ggml 기반의 로컬 오디오 런타임 성능을 공개했습니다. RTX 5090 기준 실시간보다 4.08배 빠른 생성 속도를 보여주며, 긴 형태의 다중 화자 TTS 최적화를 목표로 합니다.
핵심 포인트
- audio.cpp를 통한 VibeVoice 1.5B 로컬 추론 지원
- RTX 5090에서 실시간 대비 4.08배 빠른 생성 속도 달성
- Python 대비 약 2.86배의 성능 향상 기록
- 긴 형태의 팟캐스트, 캐릭터 채팅 등 다중 화자 TTS 최적화
- 네이티브 로컬 런타임의 안정적인 메모리 및 CUDA 최적화 지향
저는 로컬 오디오 모델을 위한 C++/ggml 런타임인 audio.cpp의 제작자입니다.
방금 VibeVoice 1.5B 지원을 추가했으며, 벤치마크 결과를 공유하고자 합니다. 긴 형태의 다중 화자 TTS (Text-to-Speech)는 로컬 추론 (Inference) 런타임에 대한 훌륭한 스트레스 테스트가 되기 때문입니다.
RTX 5090 결과:
VibeVoice 1.5B
오디오 길이: 5615.73초 / 93.60분
실제 소요 시간 (Wall time): 1376.84초 / 22.95분
RTF (Real-Time Factor): 0.245
속도: 실시간보다 4.08배 빠름
Python 기준점 (Baseline): 92.66분 오디오를 65.70분 만에 생성
기준점 대비 속도 향상: 2.86배
양자화 (Quantization): 없음
디퓨전 단계 (Diffusion steps): 10
핵심은 단순히 Python 설정의 번거로움을 피하는 것만이 아닙니다 (물론 그것도 포함되지만). 목표는 오디오 모델을 네이티브 로컬 런타임에서 실용적으로 만드는 것입니다. 즉, 재사용 가능한 세션, 서버와 같은 사용 방식, 긴 형태의 생성, 안정적인 메모리 동작, 그리고 CUDA 중심의 (추후 CPU 및 Metal 포함) 최적화를 지향합니다.
VibeVoice는 단순한 짧은 문장 TTS가 아니기에 유용한 이정표가 됩니다. 이 모델은 팟캐스트, 캐릭터 채팅, 내레이션과 같이 런타임 동작이 매우 중요한 긴 형태의 다중 화자 대화를 위해 설계되었습니다.
현재 프레임워크 진행 상황:
출시된 모델 제품군: 16 / 28 [███████████░░░░░░░░░] 57%
다른 모델 제품군들은 이미 내부적으로 엔드 투 엔드 (End-to-end)로 실행되고 있지만, 테스트와 정리 과정을 거쳐 점진적으로 출시할 예정입니다.
저장소(Repo) 주소는 https://github.com/0xShug0/audio.cpp 입니다.
다른 GPU나 CPU에서 VibeVoice를 테스트하는 분들의 피드백, 특히 긴 프롬프트, 다중 화자 포맷팅, VRAM 동작, 그리고 성능 수치에 대한 의견을 듣고 싶습니다.
submitted by /u/Acceptable-Cycle4645
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기