BaltiVoice: Balti 언어를 위한 음성 코퍼스 및 미세 조정된 Whisper ASR 시스템
요약
파키스탄 Balti 언어를 위한 음성 코퍼스인 BaltiVoice를 소개합니다. OpenAI Whisper-small 모델을 이 코퍼스로 미세 조정하여, 기존 제로샷 성능 대비 단어 오류율(WER)을 획기적으로 낮추는 데 성공했습니다.
핵심 포인트
- Balti 언어용 16.8시간 분량의 음성 코퍼스 구축
- OpenAI Whisper-small 모델 미세 조정 수행
- WER을 182.18%에서 30.07%로 대폭 개선
- 데이터셋 및 모델 HuggingFace를 통해 공개
우리는 파키스탄 Gilgit-Baltistan 지역에서 사용되는 티베트어 계열 언어인 Balti (ISO 639-3: bft)를 위한 16.8시간 분량의 낭독 음성 코퍼스인 BaltiVoice를 선보입니다. Balti 언어는 이전에 공개적으로 사용 가능한 ASR (Automatic Speech Recognition, 자동 음성 인식) 자원이 없었습니다. 이 코퍼스는 Mozilla Common Voice 녹음에서 파생된, 고유의 Nastaliq 스크립트로 검증된 10,060개의 발화를 포함하고 있습니다. 우리는 이 코퍼스를 사용하여 OpenAI Whisper-small 모델을 미세 조정 (Fine-tuning)하였으며, 538개의 발화로 구성된 홀드아웃 (Held-out) 검증 세트에서 30.07%의 단어 오류율 (WER, Word Error Rate)을 기록했습니다. 이는 Balti 언어에 대한 Whisper-small의 측정된 제로샷 (Zero-shot) 베이스라인인 182.18%에서 크게 낮아진 수치입니다. 데이터셋, 미세 조정된 모델, 그리고 실시간 전사 데모는 HuggingFace에서 공개적으로 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기