Reddit요약2026. 05. 23. 17:37

화자 분리(Diarization) 및 타임스탬프 지원을 위한 Cohere Transcribe 파인튜닝

요약

Cohere Transcribe 모델에 화자 분리(Diarization) 및 타임스탬프 기능을 추가하기 위한 파인튜닝 결과물을 소개합니다. 표준 타임스탬프 형식을 지원하며, 매우 높은 시간 정확도와 최대 32명의 화자 식별 능력을 갖추고 있습니다.

안녕하세요.

짧게 말씀드리겠습니다:
Cohere-transcribe는 현재 최고의 오픈 소스 음성-텍스트 변환 (Speech-to-Text, STT) 모델입니다 (아마도 다른 독점 모델들보다 더 나을 수도 있습니다).

하지만 토크나이저 (Tokenizer)에 관련 토큰이 있음에도 불구하고, 화자 분리 (Diarization, 화자 식별) 및 타임스탬프 (Timestamps)를 지원하지 않습니다.

그래서 저는 이를 지원하도록 모델을 학습시켰습니다. 표준 타임스탬프 표준을 따릅니다.

이제 출력 결과는 다음과 같습니다:

&lt;|spltoken0|&gt;&lt;|t:0.0|&gt; Welcome back. &lt;|t:1.5|&gt;&lt;|spltoken1|&gt;&lt;|t:1.5|&gt; Thanks. &lt;|t:2.4|&gt;

이는 쉽게 파싱 (Parsing) 가능한 형식입니다.

타임스탬프는 평균적으로 0.097초 이내로 정확하며, 90%는 0.006초 이내의 오차를 보입니다.

이 모델은 30초당 최대 4명의 화자를 지원하며, diarize_long.py 스크립트를 사용하면 최대 32명까지 정확하게 식별할 수 있습니다.

즐겁게 사용하세요!

AI 자동 생성 콘텐츠