본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 16:04

자동 음성 인식 (ASR) 에서 언어 모델 재평가의 정성적 평가

요약

본 논문은 자동 음성 인식(ASR) 시스템 평가가 단어 오류율(WER)에만 의존하는 한계를 지적하며, 보다 심층적인 분석을 목표로 합니다. 따라서 WER 외에도 언어 모델의 기여도를 측정하기 위해 POSER(Part-of-speech Error Rate)와 EmbER(Embedding Error Rate)라는 두 가지 새로운 평가 지표를 제안합니다. 이 지표들은 전사된 단어의 문법적 정확성과 의미론적 거리를 고려하여 ASR 시스템의 언어 모델 재평가 효과를 정량적으로 분석할 수 있게 합니다.

핵심 포인트

  • ASR 시스템 평가는 WER(Word Error Rate)에만 의존하는 것은 한계가 있다.
  • 제안된 POSER(Part-of-speech Error Rate)는 전사 오류의 문법적 측면을 평가한다.
  • EmbER(Embedding Error Rate)은 잘못 전사된 단어들의 의미론적 거리를 고려하여 WER을 수정하는 방법을 제시한다.
  • 이러한 새로운 지표들은 후처리 재평가 단계에서 언어 모델이 제공하는 언어학적 기여를 정량적으로 측정할 수 있게 한다.

자동 음성 인식 (Automatic Speech Recognition, ASR) 시스템 평가는 고전적이면서도 어렵고 여전히 해결되지 않은 문제로, 종종 단어 오류율 (Word Error Rate, WER) 에만 집중하는 것으로 귀결됩니다. 그러나 이 지표는 많은 한계를 가지고 있어 자동 전사 오류에 대한 심층 분석을 허용하지 않습니다. 본 논문에서는 WER 외에도 다른 자연어 처리 (Natural Language Processing, NLP) 작업에서 흔히 사용되는 여러 지표를 통해 ASR 시스템에서 언어 모델을 사용한 재평가 (rescoring) 의 영향을 연구하고 이해하고자 합니다. 특히, 전사된 단어의 형태 - 문법적 및 의미론적 측면과 관련된 두 가지 측정 방법을 도입합니다: 1) 문법적 측면을 강조해야 하는 POSER (Part-of-speech Error Rate), 2) 잘못 전사된 단어들의 의미론적 거리에 따라 가중치를 부여하여 WER 을 수정하는 EmbER (Embedding Error Rate) 입니다. 이러한 지표들은 전사 가설에 대해 후처리 재평가 단계에서 적용되는 언어 모델의 언어학적 기여를 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0