화자 분리(Diarization) 및 타임스탬프 지원을 위한 Cohere Transcribe 파인튜닝
요약
Cohere Transcribe 모델에 화자 분리(Diarization) 및 타임스탬프 기능을 추가하기 위한 파인튜닝 결과물을 소개합니다. 표준 타임스탬프 형식을 지원하며, 매우 높은 시간 정확도와 최대 32명의 화자 식별 능력을 갖추고 있습니다.
핵심 포인트
- Cohere Transcribe 기반의 화자 분리 및 타임스탬프 지원 모델 개발
- 평균 0.097초 이내의 매우 정밀한 타임스탬프 정확도 제공
- 스크립트 활용 시 최대 32명의 화자 식별 가능
- Hugging Face를 통해 오픈 소스로 무료 이용 가능
안녕하세요.
짧게 말씀드리겠습니다:
Cohere-transcribe는 현재 최고의 오픈 소스 음성-텍스트 변환 (Speech-to-Text, STT) 모델입니다 (아마도 다른 독점 모델들보다 더 나을 수도 있습니다).
하지만 토크나이저 (Tokenizer)에 관련 토큰이 있음에도 불구하고, 화자 분리 (Diarization, 화자 식별) 및 타임스탬프 (Timestamps)를 지원하지 않습니다.
그래서 저는 이를 지원하도록 모델을 학습시켰습니다. 표준 타임스탬프 표준을 따릅니다.
이제 출력 결과는 다음과 같습니다:
<|spltoken0|><|t:0.0|> Welcome back. <|t:1.5|><|spltoken1|><|t:1.5|> Thanks. <|t:2.4|>
이는 쉽게 파싱 (Parsing) 가능한 형식입니다.
타임스탬프는 평균적으로 0.097초 이내로 정확하며, 90%는 0.006초 이내의 오차를 보입니다.
이 모델은 30초당 최대 4명의 화자를 지원하며, diarize_long.py 스크립트를 사용하면 최대 32명까지 정확하게 식별할 수 있습니다.
즐겁게 사용하세요!
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기