arXiv논문2026. 05. 13. 04:13

WorldSpeech: 전 세계의 다국어 음성 코퍼스

요약

WorldSpeech는 전 세계의 다국어 음성 코퍼스를 제공하는 데이터셋으로, 자동 음성 인식(ASR) 모델 학습에 필요한 정렬된 오디오-스크립트 데이터를 수집했습니다. 의회 회의록, 국제 방송 등 다양한 공공 출처에서 76개 언어에 걸쳐 총 65k시간의 방대한 양의 데이터를 구성했습니다. 이 코퍼스를 활용하여 기존 ASR 모델을 파인튜닝했을 때, 유형론적으로 다양한 11개 언어에서 평균 상대 단어 오류율(WER) 감소율 63.5%라는 높은 성능 향상을 입증했습니다.

핵심 포인트

WorldSpeech는 76개 언어에 걸쳐 총 65k시간의 정렬된 오디오-스크립트 데이터를 포함하는 다국어 음성 코퍼스이다.
데이터 출처가 의회 회의록, 국제 방송 등 다양한 공공 영역에서 수집되어 현실적인 다양성을 확보했다.
37개 언어는 200시간 이상의 정렬된 음성을 제공하며, 일부 언어는 1k 시간을 초과하는 대규모 데이터를 갖추고 있다.
WorldSpeech를 이용해 ASR 모델을 파인튜닝했을 때, 평균 WER 감소율 63.5%의 성능 향상을 달성했다.

자동 음성 인식(ASR)은 풍부한 쌍을 이루는 오디오-스크립트 데이터가 있는 고자원 언어에서는 성능이 좋지만, 공개적으로 사용 가능한 정렬된 데이터가 제한적이기 때문에 대부분의 언어에서 정확도가 급격히 떨어집니다. 이를 위해 우리는 의회 회의록, 국제 방송, 퍼블릭 도메인 오디오북 등 다양한 공공 출처에서 수집한 76개 언어에 걸쳐 65k시간의 정렬된 오디오-스크립트 데이터로 구성된 다국어 음성 코퍼스 WorldSpeech를 소개합니다. WorldSpeech는 37개 언어에 대해 200시간 이상의 정렬된 음성을 제공하며, 그중 28개 언어는 500시간을 초과하고 24개 언어는 1k 시간을 초과합니다. 기존 ASR 모델을 WorldSpeech로 파인튜닝(fine-tuning)한 결과, 유형론적으로 다양한 11개 언어에 걸쳐 평균 상대 단어 오류율(Word-Error-Rate) 감소율 63.5%를 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

WorldSpeech: 전 세계의 다국어 음성 코퍼스

요약

핵심 포인트

댓글