저자원 반투어(Bantu) 음성 인식을 위한 성조 조건부 커리큘럼 학습
요약
저자원 남부 반투어의 음성 인식 성능을 높이기 위해 성조 조건부 커리큘럼 학습 프레임워크를 제안합니다. 하이브리드 난이도 점수와 게이트 어댑터를 활용하여 기존 모델의 높은 오류율 문제를 해결하고자 했습니다.
핵심 포인트
- 성조 조건부 커리큘럼 학습을 통한 반투어 ASR 성능 개선
- W2V-BERT와 Whisper 모델 간의 언어별 성능 차이 확인
- 성조 조건부 W2V-BERT가 평균 28.41%의 WER 기록
- 언어별 특성에 따른 모델 선택 및 검증의 중요성 강조
남부 반투어(Southern Bantu languages)는 8,000만 명 이상의 사람들이 사용하고 있지만, 현재의 파운데이션 ASR(Automatic Speech Recognition) 모델들은 여전히 100% 이상의 제로샷 WER(Word Error Rate)을 기록하고 있으며, 이는 교육 및 공공 서비스에서의 실질적인 활용을 제한하고 있습니다. 우리는 하이브리드 난이도 점수 산정(hybrid difficulty scoring), 성조 통계 기반의 게이트 어댑터(gated adapters), 그리고 단계적 커리큘럼 학습(staged curriculum training)을 결합한 6개 남부 반투어 언어 대상의 성조 조건부 커리큘럼 프레임워크를 통해 이 격차를 해결하고자 했습니다. 우리는 커뮤니티 코퍼스(community corpus)로 학습을 진행하였으며, 일치하는 평가를 넘어선 강건성(robustness)을 측정하기 위해 NCHLT로의 전이(transfer)를 테스트했습니다. 결과적으로 아키텍처와 언어 사이의 명확한 상호작용이 드러났는데, W2V-BERT는 Nguni 언어에서 Whisper보다 WER 기준 3~4포인트 더 높은 성능을 보인 반면, Whisper는 Sotho-Tswana 언어에서 더 나은 성능을 보였습니다. 성조 조건부(tone conditioning)를 적용한 W2V-BERT는 데이터셋 전반에 걸쳐 평균 28.41%의 WER을 기록했으며, Xitsonga 전이 시에는 23.79%를 기록했습니다. 단일 모델이 6개 언어 모두에 적합하지는 않으므로, 배포 시에는 언어별 모델 선택과 코퍼스 전반에 걸친 검증을 병행해야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기