저자원 반투어(Bantu) 음성 인식을 위한 성조 조건부 커리큘럼 학습

남부 반투어(Southern Bantu languages)는 8,000만 명 이상의 사람들이 사용하고 있지만, 현재의 파운데이션 ASR(Automatic Speech Recognition) 모델들은 여전히 100% 이상의 제로샷 WER(Word Error Rate)을 기록하고 있으며, 이는 교육 및 공공 서비스에서의 실질적인 활용을 제한하고 있습니다. 우리는 하이브리드 난이도 점수 산정(hybrid difficulty scoring), 성조 통계 기반의 게이트 어댑터(gated adapters), 그리고 단계적 커리큘럼 학습(staged curriculum training)을 결합한 6개 남부 반투어 언어 대상의 성조 조건부 커리큘럼 프레임워크를 통해 이 격차를 해결하고자 했습니다. 우리는 커뮤니티 코퍼스(community corpus)로 학습을 진행하였으며, 일치하는 평가를 넘어선 강건성(robustness)을 측정하기 위해 NCHLT로의 전이(transfer)를 테스트했습니다. 결과적으로 아키텍처와 언어 사이의 명확한 상호작용이 드러났는데, W2V-BERT는 Nguni 언어에서 Whisper보다 WER 기준 3~4포인트 더 높은 성능을 보인 반면, Whisper는 Sotho-Tswana 언어에서 더 나은 성능을 보였습니다. 성조 조건부(tone conditioning)를 적용한 W2V-BERT는 데이터셋 전반에 걸쳐 평균 28.41%의 WER을 기록했으며, Xitsonga 전이 시에는 23.79%를 기록했습니다. 단일 모델이 6개 언어 모두에 적합하지는 않으므로, 배포 시에는 언어별 모델 선택과 코퍼스 전반에 걸친 검증을 병행해야 합니다.

Insights

저자원 반투어(Bantu) 음성 인식을 위한 성조 조건부 커리큘럼 학습

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들