arXiv논문2026. 06. 23. 12:19

음성에서 텍스트 코퍼스로: 저자원 언어인 Fongbe 및 Hausa를 위한 ASR 기반 데이터 수집 평가

요약

저자원 아프리카 언어인 Fongbe와 Hausa의 텍스트 코퍼스 확장을 위해 ASR 파이프라인을 활용한 데이터 수집 연구를 수행했습니다. MMS-300M과 Whisper 모델을 미세 조정하여 음성 데이터를 텍스트로 변환하고 그 품질을 평가했습니다.

핵심 포인트

Fongbe 언어에 대해 MMS-300M 미세 조정 후 9.48%의 WER 달성
Hausa 언어의 경우 YouTube 영상을 활용해 6,770개의 전사 세그먼트 생성
언어별 인간 평가 결과 Hausa는 양호하나 Fongbe는 사후 처리 필요
선별된 데이터셋, 미세 조정 모델 및 전사 코퍼스 공개

저자원 아프리카 언어들은 언어 모델 (Language Model) 학습에 필요한 텍스트 코퍼스 (Text Corpora)가 부족합니다. 본 연구에서는 자동 음성 인식 (ASR) 파이프라인이 유형학적으로 서로 다른 두 서아프리카 언어인 Fongbe (성조 언어, 성조 기호가 풍부함)와 Hausa (비성조 언어)의 텍스트 자원을 확장할 수 있는지 조사합니다. 우리는 선별된 12.3시간 분량의 Fongbe 데이터셋을 사용하여 MMS-300M을 미세 조정 (Fine-tuning)하였으며, 언어에 필수적인 성조 기호를 보존하면서 ALFFA 벤치마크에서 이전 기준점인 44.04% 대비 78%의 상대적 감소를 달성한 9.48%의 단어 오류율 (WER)을 기록했습니다. Hausa의 경우, 기존에 미세 조정된 Whisper-Small 모델을 적용합니다. 우리는 1,553개의 YouTube 영상 (236시간)을 목록화하였으며, 도메인 다양성과 가용 컴퓨팅 자원 사이의 균형을 맞추기 위해 선택된 424개의 영상 (45.49시간) 하위 집합을 처리하여 6,770개의 전사된 세그먼트 (Transcribed segments)를 생성했습니다. 언어별로 무작위로 추출된 50개 세그먼트에 대한 인간 평가 결과, Hausa는 100점 만점에 평균 57.4점, Fongbe는 36.5점의 품질 점수를 기록했습니다. 이는 Hausa 전사 결과가 코퍼스 구축을 위한 수용 가능한 품질에 근접한 반면, Fongbe 전사 결과는 실제 사용을 위해 사후 처리 (Post-processing) 또는 개선된 모델이 필요함을 나타냅니다. 우리는 플랫폼 약관 및 윤리적 가이드라인을 준수하여 선별된 데이터셋, 미세 조정된 모델, 전사된 코퍼스 및 전체 영상 목록을 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

음성에서 텍스트 코퍼스로: 저자원 언어인 Fongbe 및 Hausa를 위한 ASR 기반 데이터 수집 평가

요약

핵심 포인트

댓글