OpenWER: 교차 언어 ASR 평가 개선 및 토큰 기반 정확도 지표 구현
요약
OpenWER는 다국어 자동 음성 인식(ASR) 모델의 정확한 평가를 위해 언어별 정규화와 복합어 탐지를 도입한 오픈 소스 구현체입니다. 기존 WER 지표의 한계를 극복하여 저자원 언어를 포함한 52개 언어에서 최대 25%의 오류율 감소 효과를 입증했습니다.
핵심 포인트
- 언어별 정규화 및 복합어 탐지를 통한 WER 견고성 개선
- 토큰 기반 레벤슈타인 정렬로 세밀한 정확도 측정 가능
- 52개 언어 분석 결과, 기존 라이브러리 대비 WER 최대 25% 감소
- 저자원 언어에 대한 공정한 교차 언어 비교 환경 제공
딥러닝과 엔드투엔드(end-to-end) 자동 음성 인식 (ASR)의 발전은 강력한 다국어 모델을 가능하게 했으나, 평가 지표는 정확도를 평가하는 데 있어 여전히 제한적입니다. 일반적인 지표인 단어 오류율 (WER)을 개선하거나 대체하려는 노력은 종종 영어에 집중되어 있어, 저자원 언어 (low-resource languages)에 대한 평가는 충분히 탐구되지 못하고 있으며 공정한 교차 언어 비교를 저해하고 있습니다. 우리는 언어별 정규화 (language-specific normalisation) 및 복합어 탐지 (compound word detection)를 통해 WER의 견고함을 개선하는 오픈 소스 구현체인 OpenWER를 제시합니다. 토큰 기반의 레벤슈타인 정렬 (Levenshtein alignment)은 상호 보완적인 지표들을 보존하며, 세밀한 정확도 점수를 위한 메타데이터 임베딩을 허용합니다. 52개 언어에 대한 분석 결과, 일반적인 라이브러리들과 비교했을 때 절대적인 WER이 최대 25%까지 감소함을 보여주었습니다. OpenWER는 다양한 언어에 걸쳐 WER의 신뢰성을 높이고 더욱 포괄적인 정확도 평가를 가능하게 함으로써 ASR 연구의 공정성에 기여합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기