AfriVox-v2: 실전 아프리카 음성 인식용 도메인 세분화 벤치마크
요약
AfriVox-v2는 대규모 언어 모델(LLMs)의 아프리카 언어 적용에 있어 부족했던 실전적 평가 환경을 개선하기 위해 설계된 포괄적인 음성 인식 벤치마크입니다. 이 벤치마크는 실제 '현장(in the wild)' 비기록 오디오를 포함하며, 정부, 금융, 건강 등 10개 산업 분야에 걸친 엄격한 도메인 세분화 평가를 도입했습니다. AfriVox-v2의 결과는 최신 음성 모델들이 전문적이고 노이즈가 많은 아프리카 환경에서 여전히 일반화 격차를 보임을 입증하며, 지역화된 음성 AI 개발을 위한 중요한 지침을 제공합니다.
핵심 포인트
- 아프리카 언어는 기존 벤치마크에서 소외되어 있어 실용적인 활용에 제한이 많았습니다.
- AfriVox-v2는 실제 아프리카 배포 환경을 시뮬레이션하기 위해 '현장(in the wild)' 비기록 오디오를 사용합니다.
- 정부, 금융, 건강 등 10개 핵심 산업 분야에 걸친 도메인 세분화 평가를 통해 모델의 전문성을 검증합니다.
- 이 벤치마크는 최신 음성 모델들이 노이즈가 많고 전문적인 아프리카 환경에서 일반화 성능 격차를 보임을 보여줍니다.
최근 대규모 언어 모델 (LLMs) 은 고자원 언어에 대해 강력한 음성 인식 및 번역 능력을 보여주고 있습니다. 그러나 아프리카 언어는 벤치마크에서 극도로 소외되어 있어, 저자원 환경에서의 실용적 활용이 제한적입니다. 초기 벤치마크는 아프리카 언어와 발음을 테스트했으나, 포괄적인 실세계 노이즈와 세밀한 도메인 평가가 부족했습니다. 우리는 AfriVox-v2 를 제시합니다. 이는 실제 아프리카 배포 조건을 테스트하기 위해 설계된 종합적인 벤치마크입니다. AfriVox-v2 는 지원되는 모든 언어에 대해 '실전 (in the wild)' 비기록 오디오를 소개합니다. 또한, 정부, 금융, 건강, 농업 등 10 개의 섹터에 걸쳐 모델 정확도를 평가하는 엄격한 도메인 세분화 (domain verticalization) 를 도입했습니다. 숫자와 명사 실체 (named entities) 에 대한 타겟 테스트도 수행했습니다. 마지막으로, Sahara-v2, Gemini 3 Flash, 그리고 Omnilingual CTC 모델을 포함한 새로운 세대 음성 모델을 벤치마크했습니다. 우리의 결과는 현대 음성 모델이 전문적이고 노이즈가 많은 아프리카 환경에서 보이는 진정한 일반화 격차를 드러내며, 지역화된 음성 AI 를 구축하는 개발자에게 신뢰할 수 있는 청사진을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기