[audio.cpp] VibeVoice 1.5B 출시 — 90분 분량의 팟캐스트를 22.95분 만에 생성, 실시간 대비 4.08배, 양자화 - Insights | Molayo

저는 로컬 오디오 모델을 위한 C++/ggml 런타임인 audio.cpp의 제작자입니다.

방금 VibeVoice 1.5B 지원을 추가했으며, 벤치마크 결과를 공유하고자 합니다. 긴 형태의 다중 화자 TTS (Text-to-Speech)는 로컬 추론 (Inference) 런타임에 대한 훌륭한 스트레스 테스트가 되기 때문입니다.

RTX 5090 결과:

VibeVoice 1.5B
오디오 길이: 5615.73초 / 93.60분
실제 소요 시간 (Wall time): 1376.84초 / 22.95분
RTF (Real-Time Factor): 0.245
속도: 실시간보다 4.08배 빠름
Python 기준점 (Baseline): 92.66분 오디오를 65.70분 만에 생성
기준점 대비 속도 향상: 2.86배
양자화 (Quantization): 없음
디퓨전 단계 (Diffusion steps): 10

핵심은 단순히 Python 설정의 번거로움을 피하는 것만이 아닙니다 (물론 그것도 포함되지만). 목표는 오디오 모델을 네이티브 로컬 런타임에서 실용적으로 만드는 것입니다. 즉, 재사용 가능한 세션, 서버와 같은 사용 방식, 긴 형태의 생성, 안정적인 메모리 동작, 그리고 CUDA 중심의 (추후 CPU 및 Metal 포함) 최적화를 지향합니다.

VibeVoice는 단순한 짧은 문장 TTS가 아니기에 유용한 이정표가 됩니다. 이 모델은 팟캐스트, 캐릭터 채팅, 내레이션과 같이 런타임 동작이 매우 중요한 긴 형태의 다중 화자 대화를 위해 설계되었습니다.

현재 프레임워크 진행 상황:
출시된 모델 제품군: 16 / 28 [███████████░░░░░░░░░] 57%

다른 모델 제품군들은 이미 내부적으로 엔드 투 엔드 (End-to-end)로 실행되고 있지만, 테스트와 정리 과정을 거쳐 점진적으로 출시할 예정입니다.

저장소(Repo) 주소는 https://github.com/0xShug0/audio.cpp 입니다.

다른 GPU나 CPU에서 VibeVoice를 테스트하는 분들의 피드백, 특히 긴 프롬프트, 다중 화자 포맷팅, VRAM 동작, 그리고 성능 수치에 대한 의견을 듣고 싶습니다.

submitted by /u/Acceptable-Cycle4645
[link] [comments]

Insights

[audio.cpp] VibeVoice 1.5B 출시 — 90분 분량의 팟캐스트를 22.95분 만에 생성, 실시간 대비 4.08배, 양자화

요약

핵심 포인트

댓글

AI에게 코드베이스를 설명하는 것을 멈추세요 — Cursor가 직접 읽게 하세요 (2026년 7월)

박제된 나비(Lepidoptera)의 실용적인 고충실도 신규 시점 합성 (Novel-View Synthesis)

NURBS Splatting: 벡터 그래픽을 위한 통합 미분 가능 렌더링 프레임워크

차가운 우주 속 뜨거운 AI: 지속 가능한 궤도 AI 클러스터를 위한 열 간섭 인지형 스케줄링

AI에게 코드베이스를 설명하는 것을 멈추세요 — Cursor가 직접 읽게 하세요 (2026년 7월)

박제된 나비(Lepidoptera)의 실용적인 고충실도 신규 시점 합성 (Novel-View Synthesis)

NURBS Splatting: 벡터 그래픽을 위한 통합 미분 가능 렌더링 프레임워크

차가운 우주 속 뜨거운 AI: 지속 가능한 궤도 AI 클러스터를 위한 열 간섭 인지형 스케줄링