SN-WER: 다중 문자 인도어 ASR 평가를 위한 문자 정규화 WER
요약
다국어 ASR 평가 시 서로 다른 문자 표기로 인해 발생하는 WER의 과대평가 문제를 해결하기 위한 SN-WER 지표를 제안합니다. 참조 텍스트와 가설을 표준 문자로 음차하여 계산하는 이 방식은 인도어 환경에서 모델 간 격차를 최대 12% 완화합니다.
핵심 포인트
- 문자 불일치로 인한 WER 오류 과대평가 문제 해결
- 별도의 학습이 필요 없는 평가 전용 점수 산출 방식
- 인도어 환경에서 로마자 표기 오류를 67% 완화
- 의미론적 오류에 대해 기존 WER과 유사한 민감도 유지
- ASR 평가 시 WER, CER과 함께 보조 지표로 사용 권장
단어 오류율 (Word Error Rate, WER)은 자동 음성 인식 (Automatic Speech Recognition, ASR)의 지배적인 지표이지만, 참조 (reference) 텍스트와 가설 (hypothesis) 텍스트가 동일한 단어를 서로 다른 문자 (script)로 인코딩할 경우 오류를 과대평가할 수 있습니다. 이러한 문제는 ASR 모델이 로마자 표기 (romanized) 텍스트를 출력할 수 있는 다국어 환경에서 흔히 발생합니다. 우리는 WER을 계산하기 전에 참조 텍스트와 가설 텍스트를 모두 언어별 표준 문자 (canonical script)로 음차 (transliterate)하는, 별도의 학습이 필요 없는 평가 전용 점수 산출 방식인 SN-WER (Script-Normalized WER)을 제안합니다. 우리는 5개의 인도어 (Indic languages), 2개의 데이터셋, 3개의 ASR 모델을 대상으로 SN-WER을 평가했습니다. 정제된 FLEURS 데이터에서 SN-WER은 부풀려진 모델 간 격차를 최대 12%까지 줄였으나, 노이즈가 더 많은 Common Voice 데이터에서는 감소 폭이 더 작거나 일관되지 않았는데, 이는 단순한 문자 불일치가 아닌 실제 인식 약점을 나타냅니다. 통제된 스트레스 테스트 결과, 인위적인 로마자 표기로 인한 WER 부풀림 현상이 67% 완화되었음을 보여주었으며, 어휘 치환 (lexical-substitution) 통제 실험에서는 의미론적 오류에 대해 거의 동일한 민감도를 보였으며, Delta SN-WER / Delta WER 값은 약 1.09였습니다. SN-WER은 음차 도구 (transliterator)의 선택이나 정규화 변경에 대해 견고하며, 평가된 인도어 환경에서 0.1% 미만의 낮은 토큰 충돌 (token-collision) 비율을 보였습니다. 우리는 전사 (transcripts) 데이터가 다운스트림 검색, 인덱싱 또는 다국어 대규모 언어 모델 (LLM) 파이프라인으로 전달되는 경우, 특히 문자 불일치에 민감하지 않은 ASR 평가를 위한 보조 지표로서 SN-WER이 WER 및 CER (Character Error Rate)과 함께 보고되어야 한다고 주장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기