
진짜 대박입니다.
요약
Microsoft에서 공개한 오픈 소스 음성 AI인 VibeVoice를 소개합니다. 긴 회의 녹음을 화자 구분과 타임스탬프를 포함하여 자동으로 전사하며, 강력한 음성 합성 기능도 제공합니다.
핵심 포인트
- 60분 이상의 긴 음성 일괄 처리 및 화자 구분 지원
- 50개 이상의 언어 지원 및 타임스탬프 부여
- 목소리 변화 없는 일관된 음성 합성 기능 제공
- Qwen2.5 기반의 경량화 모델로 실시간 상호작용 가능
- MIT 라이선스로 상업적 이용이 자유로움
진짜 대박입니다.
60분의 회의 녹음을 '누가·언제·무엇을 말했는지'까지 통째로 자동 전사(Transcription)하는 음성 AI가 해외에서 화제입니다.
Microsoft에서 시작된 오픈 소스(Open Source) 「VibeVoice」. 2025년에 공개되었는데, 최근 이 전사 기능을 간편하게 사용할 수 있게 되어 다시 한번 사용해 보니 정말 대단했습니다.
긴 회의의 전사는 일반적인 Whisper (OpenAI의 전사 AI)를 사용하면 긴 분량에서 타임아웃(Timeout)이 발생하거나, 여러 명이 말할 때 '누구의 발언인지'가 엉망이 되기 쉽습니다.
VibeVoice는 그 부분을 정면으로 해결해 왔습니다.
전사 측면에서 좋은 점은 다음과 같습니다.
・60분의 긴 음성을 통째로 일괄 처리
・화자 구분과 타임스탬프(Timestamp, 몇 분 몇 초의 발언인지)를 처음부터 부여
・50개 이상의 언어 지원
회의 음성을 재생하는 것만으로 '발언자가 포함된 회의록 초안'이 나온다는 이미지입니다.
반대 방향인 음성 합성(Speech Synthesis, 문장을 읽어 음성으로 만드는 것)도 강력합니다.
최대 90분·화자 4명분의 대화 음성을 목소리 변화 없이 일관되게 생성할 수 있습니다. 오디오북이나 팟캐스트 제작에 적합합니다.
다만 중요한 주의사항이 하나 있습니다.
더욱 경량화된 0.5B 버전도 있어, 첫 소리가 나오기까지 약 300밀리초(ms)가 소요됩니다. 대화형 AI(Conversational AI)에 그대로 통합하여 실시간 음성 상호작용을 할 수 있습니다.
・라이선스는 MIT (상업적 이용도 비교적 자유로움)
・내부는 Qwen2.5 (Alibaba 제작 AI)에 독자적인 음성 처리를 추가한 구성
・공식 리포지토리(Repository)는 4.8만 스타(Star) 초과
공식 리포지토리는 여기
이 게시물이 도움이 되었다면,
@so_ainsight
를 팔로우해 주세요.
좋아요, 리포스트도 부탁드립니다.
Yeah, I did think that for a second, but since even this image can be whipped up in 2 seconds, I ended up thinking maybe we should put a bit more care into it lol
AI 자동 생성 콘텐츠
본 콘텐츠는 X @so_ainsight (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기