
Microsoft, 60분 분량의 음성을 한 번에 텍스트로 변환하고 4인 동시 대화까지 처리할 수 있는 AI 음성 소프트웨어 공개
요약
Microsoft가 긴 음성 녹음을 텍스트로 변환하고 다중 화자를 구분하는 오픈 소스 AI 소프트웨어 VibeVoice를 공개했습니다. 60분 이상의 연속 음성 처리와 4인 동시 대화 인식, 고품질 TTS 기능을 지원합니다.
핵심 포인트
- 60분 분량의 연속 음성 및 4인 동시 대화 처리 가능
- 화자 분리(Diarization) 및 타임스탬프 기능 내장
- 일관된 음질의 다중 화자 TTS 합성 지원
- Qwen 2.5 기반 및 300ms 저지연 0.5B 모델 제공
Microsoft는 60분 분량의 음성 녹음을 한 번에 텍스트로 변환할 수 있으며, 심지어 네 명이 동시에 말하는 대화까지 처리할 수 있는 인공지능 (AI) 음성 소프트웨어를 오픈 소스 (Open Source)로 출시했습니다.
Microsoft가 오픈 소스로 공개한 VibeVoice는 현재 24,800개의 스타를 기록하고 있으며, 저도 오늘 처음 알게 되었습니다. 이전에는 원클릭 음성-텍스트 변환을 위해 Whisper를 사용해 왔으나, 긴 회의 녹음 파일을 처리할 때 자주 타임아웃 (Time-out)이 발생했고 다중 화자 인식 (Multi-speaker recognition) 기능도 상당히 부정확했습니다.
VibeVoice는 내장된 화자 분리 (Speaker diarization) 및 타임스탬프 (Timestamp) 기능을 통해 60분간의 연속적인 음성을 직접 지원합니다. 네 명이 동시에 말하는 시나리오에서도 누가 무엇을 말했는지 명확하게 구분할 수 있습니다. 저를 가장 놀라게 한 점은 TTS (Text-to-Speech, 문자를 음성으로 변환) 능력인데, 네 개의 목소리를 동시에 합성하여 처음부터 끝까지 일관된 음질로 90분 분량의 일관된 출력을 생성합니다.
오디오북이나 팟캐스트를 제작하는 분들에게는 매우 흥미로운 도구가 될 것입니다. 이전에는 다중 음성 합성이 대개 일관되지 않은 목소리로 이어지곤 했으나, 이 문제는 해결되었습니다. 기본 레이어 (Layer)는 특수한 연속 대화 토큰 (Continuous speech token)을 포함하는 Qwen 2.5이며, 또한 300ms의 지연 시간(Latency)을 가진 가벼운 0.5B 버전도 존재합니다. 이는 별도의 제3자 TTS 서비스 없이도 실시간 음성 상호작용을 위해 대화형 AI와 직접 통합될 수 있음을 의미합니다.
현재 저는 이 ASR (Automatic Speech Recognition, 자동 음성 인식)을 제 회의 기록 도구에 통합하는 것을 고려 중입니다. 만약 안정적으로 작동한다면, 회의가 끝난 후 화자 설명과 함께 자동으로 회의록을 생성하는 것은 믿을 수 없을 정도로 효율적일 것입니다.
오픈 소스 👇
#AI #AIAgent
AI 자동 생성 콘텐츠
본 콘텐츠는 X @DeepTechTR (AI/오픈소스)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기