arXiv논문2026. 05. 01. 16:04

자동 음성 인식 (ASR) 에서 언어 모델 재평가의 정성적 평가

요약

본 논문은 자동 음성 인식(ASR) 시스템 평가가 단어 오류율(WER)에만 의존하는 한계를 지적하며, 보다 심층적인 분석을 목표로 합니다. 따라서 WER 외에도 언어 모델의 기여도를 측정하기 위해 POSER(Part-of-speech Error Rate)와 EmbER(Embedding Error Rate)라는 두 가지 새로운 평가 지표를 제안합니다. 이 지표들은 전사된 단어의 문법적 정확성과 의미론적 거리를 고려하여 ASR 시스템의 언어 모델 재평가 효과를 정량적으로 분석할 수 있게 합니다.

핵심 포인트

ASR 시스템 평가는 WER(Word Error Rate)에만 의존하는 것은 한계가 있다.
제안된 POSER(Part-of-speech Error Rate)는 전사 오류의 문법적 측면을 평가한다.
EmbER(Embedding Error Rate)은 잘못 전사된 단어들의 의미론적 거리를 고려하여 WER을 수정하는 방법을 제시한다.
이러한 새로운 지표들은 후처리 재평가 단계에서 언어 모델이 제공하는 언어학적 기여를 정량적으로 측정할 수 있게 한다.

자동 음성 인식 (Automatic Speech Recognition, ASR) 시스템 평가는 고전적이면서도 어렵고 여전히 해결되지 않은 문제로, 종종 단어 오류율 (Word Error Rate, WER) 에만 집중하는 것으로 귀결됩니다. 그러나 이 지표는 많은 한계를 가지고 있어 자동 전사 오류에 대한 심층 분석을 허용하지 않습니다. 본 논문에서는 WER 외에도 다른 자연어 처리 (Natural Language Processing, NLP) 작업에서 흔히 사용되는 여러 지표를 통해 ASR 시스템에서 언어 모델을 사용한 재평가 (rescoring) 의 영향을 연구하고 이해하고자 합니다. 특히, 전사된 단어의 형태 - 문법적 및 의미론적 측면과 관련된 두 가지 측정 방법을 도입합니다: 1) 문법적 측면을 강조해야 하는 POSER (Part-of-speech Error Rate), 2) 잘못 전사된 단어들의 의미론적 거리에 따라 가중치를 부여하여 WER 을 수정하는 EmbER (Embedding Error Rate) 입니다. 이러한 지표들은 전사 가설에 대해 후처리 재평가 단계에서 적용되는 언어 모델의 언어학적 기여를 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

자동 음성 인식 (ASR) 에서 언어 모델 재평가의 정성적 평가

요약

핵심 포인트

댓글