Microsoft, 60분 분량의 음성을 한 번에 텍스트로 변환하고 4인 동시 대화까지 처리할 수 있는 AI 음성 소프트웨어 공개

Microsoft는 60분 분량의 음성 녹음을 한 번에 텍스트로 변환할 수 있으며, 심지어 네 명이 동시에 말하는 대화까지 처리할 수 있는 인공지능 (AI) 음성 소프트웨어를 오픈 소스 (Open Source)로 출시했습니다.

Microsoft가 오픈 소스로 공개한 VibeVoice는 현재 24,800개의 스타를 기록하고 있으며, 저도 오늘 처음 알게 되었습니다. 이전에는 원클릭 음성-텍스트 변환을 위해 Whisper를 사용해 왔으나, 긴 회의 녹음 파일을 처리할 때 자주 타임아웃 (Time-out)이 발생했고 다중 화자 인식 (Multi-speaker recognition) 기능도 상당히 부정확했습니다.

VibeVoice는 내장된 화자 분리 (Speaker diarization) 및 타임스탬프 (Timestamp) 기능을 통해 60분간의 연속적인 음성을 직접 지원합니다. 네 명이 동시에 말하는 시나리오에서도 누가 무엇을 말했는지 명확하게 구분할 수 있습니다. 저를 가장 놀라게 한 점은 TTS (Text-to-Speech, 문자를 음성으로 변환) 능력인데, 네 개의 목소리를 동시에 합성하여 처음부터 끝까지 일관된 음질로 90분 분량의 일관된 출력을 생성합니다.

오디오북이나 팟캐스트를 제작하는 분들에게는 매우 흥미로운 도구가 될 것입니다. 이전에는 다중 음성 합성이 대개 일관되지 않은 목소리로 이어지곤 했으나, 이 문제는 해결되었습니다. 기본 레이어 (Layer)는 특수한 연속 대화 토큰 (Continuous speech token)을 포함하는 Qwen 2.5이며, 또한 300ms의 지연 시간(Latency)을 가진 가벼운 0.5B 버전도 존재합니다. 이는 별도의 제3자 TTS 서비스 없이도 실시간 음성 상호작용을 위해 대화형 AI와 직접 통합될 수 있음을 의미합니다.

현재 저는 이 ASR (Automatic Speech Recognition, 자동 음성 인식)을 제 회의 기록 도구에 통합하는 것을 고려 중입니다. 만약 안정적으로 작동한다면, 회의가 끝난 후 화자 설명과 함께 자동으로 회의록을 생성하는 것은 믿을 수 없을 정도로 효율적일 것입니다.

오픈 소스 👇
#AI #AIAgent

Insights

Microsoft, 60분 분량의 음성을 한 번에 텍스트로 변환하고 4인 동시 대화까지 처리할 수 있는 AI 음성 소프트웨어 공개

요약

핵심 포인트

댓글

미트 프록시(Meat Proxy)가 되지 마세요: 엔지니어링 팀을 휩쓸고 있는 AI 에티켓 문제

데이터로 반박하는 엔터프라이즈 AI에 관한 7가지 흔한 오해

AI 개발 트렌드: 멀티모달 (Multimodal) AI 모델의 영향력 확대

vitali87/code-graph-rag

미트 프록시(Meat Proxy)가 되지 마세요: 엔지니어링 팀을 휩쓸고 있는 AI 에티켓 문제

데이터로 반박하는 엔터프라이즈 AI에 관한 7가지 흔한 오해

AI 개발 트렌드: 멀티모달 (Multimodal) AI 모델의 영향력 확대

vitali87/code-graph-rag