본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 29. 02:06

Microsoft는 현존하는 가장 강력한 AI 전사(Transcription) 도구 중 하나를 보유하고 있습니다.

요약

Microsoft가 개발한 오픈 소스 AI 전사 모델인 VibeVoice를 소개합니다. 최대 60분의 오디오를 한 번에 처리하며 화자 식별과 타임스탬프 기능을 제공합니다.

핵심 포인트

  • 최대 60분 분량의 오디오를 단일 패스로 처리 가능
  • 화자 식별 및 타임스탬프가 포함된 구조화된 전사 생성
  • 50개 이상의 언어 지원 및 사용자 정의 용어 추가 가능
  • GitHub 스타 5만 개 이상을 기록한 무료 오픈 소스 모델

Microsoft는 현존하는 가장 강력한 AI 전사 (Transcription) 도구 중 하나를 보유하고 있습니다.

이름은 VibeVoice이며, 단 한 번의 패스(pass)로 최대 1시간의 오디오를 전사할 수 있는 오픈 소스 (open-source) 모델로, 누가 말하는지, 언제 말하는지, 그리고 무엇을 말하는지를 식별할 수 있습니다.

포함된 기능은 다음과 같습니다:

→ 오디오를 조각으로 나누지 않고 최대 60분까지 처리
→ 매 순간 누가 말하는지 자동으로 식별
→ 타임스탬프(timestamp)가 포함된 구조화된 전사 생성
→ 50개 이상의 언어 지원
→ 정확도를 높이기 위해 컨텍스트 (context) 및 사용자 정의 용어 추가 가능

가장 흥미로운 점:

많은 전사 도구들이 이러한 종류의 기능을 제공하기 위해 월간 구독료를 부과합니다.

VibeVoice는 무료이며, 오픈 소스 (open-source)이고, 이미 GitHub에서 5만 개 이상의 스타 (stars)를 기록하고 있습니다.

댓글에 리포지토리 (repo)를 남겨둡니다 👇
[IMG:https://pbs.twimg.com/media/HL6bb9ZWoAE39et.jpg]

AI 자동 생성 콘텐츠

본 콘텐츠는 X @_guillecasaus (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0