X요약2026. 06. 29. 02:06

Microsoft는 현존하는 가장 강력한 AI 전사(Transcription) 도구 중 하나를 보유하고 있습니다.

요약

Microsoft가 개발한 오픈 소스 AI 전사 모델인 VibeVoice를 소개합니다. 최대 60분의 오디오를 한 번에 처리하며 화자 식별과 타임스탬프 기능을 제공합니다.

핵심 포인트

최대 60분 분량의 오디오를 단일 패스로 처리 가능
화자 식별 및 타임스탬프가 포함된 구조화된 전사 생성
50개 이상의 언어 지원 및 사용자 정의 용어 추가 가능
GitHub 스타 5만 개 이상을 기록한 무료 오픈 소스 모델

Microsoft는 현존하는 가장 강력한 AI 전사 (Transcription) 도구 중 하나를 보유하고 있습니다.

이름은 VibeVoice이며, 단 한 번의 패스(pass)로 최대 1시간의 오디오를 전사할 수 있는 오픈 소스 (open-source) 모델로, 누가 말하는지, 언제 말하는지, 그리고 무엇을 말하는지를 식별할 수 있습니다.

포함된 기능은 다음과 같습니다:

→ 오디오를 조각으로 나누지 않고 최대 60분까지 처리
→ 매 순간 누가 말하는지 자동으로 식별
→ 타임스탬프(timestamp)가 포함된 구조화된 전사 생성
→ 50개 이상의 언어 지원
→ 정확도를 높이기 위해 컨텍스트 (context) 및 사용자 정의 용어 추가 가능

가장 흥미로운 점:

많은 전사 도구들이 이러한 종류의 기능을 제공하기 위해 월간 구독료를 부과합니다.

VibeVoice는 무료이며, 오픈 소스 (open-source)이고, 이미 GitHub에서 5만 개 이상의 스타 (stars)를 기록하고 있습니다.

댓글에 리포지토리 (repo)를 남겨둡니다 👇
[IMG:https://pbs.twimg.com/media/HL6bb9ZWoAE39et.jpg]

AI 자동 생성 콘텐츠

원문 바로가기