
Microsoft는 현존하는 가장 강력한 AI 전사(Transcription) 도구 중 하나를 보유하고 있습니다.
요약
Microsoft가 개발한 오픈 소스 AI 전사 모델인 VibeVoice를 소개합니다. 최대 60분의 오디오를 한 번에 처리하며 화자 식별과 타임스탬프 기능을 제공합니다.
핵심 포인트
- 최대 60분 분량의 오디오를 단일 패스로 처리 가능
- 화자 식별 및 타임스탬프가 포함된 구조화된 전사 생성
- 50개 이상의 언어 지원 및 사용자 정의 용어 추가 가능
- GitHub 스타 5만 개 이상을 기록한 무료 오픈 소스 모델
Microsoft는 현존하는 가장 강력한 AI 전사 (Transcription) 도구 중 하나를 보유하고 있습니다.
이름은 VibeVoice이며, 단 한 번의 패스(pass)로 최대 1시간의 오디오를 전사할 수 있는 오픈 소스 (open-source) 모델로, 누가 말하는지, 언제 말하는지, 그리고 무엇을 말하는지를 식별할 수 있습니다.
포함된 기능은 다음과 같습니다:
→ 오디오를 조각으로 나누지 않고 최대 60분까지 처리
→ 매 순간 누가 말하는지 자동으로 식별
→ 타임스탬프(timestamp)가 포함된 구조화된 전사 생성
→ 50개 이상의 언어 지원
→ 정확도를 높이기 위해 컨텍스트 (context) 및 사용자 정의 용어 추가 가능
가장 흥미로운 점:
많은 전사 도구들이 이러한 종류의 기능을 제공하기 위해 월간 구독료를 부과합니다.
VibeVoice는 무료이며, 오픈 소스 (open-source)이고, 이미 GitHub에서 5만 개 이상의 스타 (stars)를 기록하고 있습니다.
댓글에 리포지토리 (repo)를 남겨둡니다 👇
[IMG:https://pbs.twimg.com/media/HL6bb9ZWoAE39et.jpg]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @_guillecasaus (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기