본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 06. 17:12

자동 음성 인식 평가 지표 해석 및 오류 식별을 위한 패러다임

요약

본 논문은 자동 음성 인식(ASR) 평가에 사용되는 단어/문자 오류율(WER/CER)이 인간 지각과 낮은 상관관계를 가진다는 문제점을 지적합니다. 이를 해결하기 위해, 본 연구는 선택된 여러 지표를 통합하여 '최소 편집 거리(minED)'라는 새로운 패러다임을 제시합니다. 이 접근법은 전사 오류와 인간의 실제 지각을 연결하고, 오류의 심각도에 대한 분석을 가능하게 합니다.

핵심 포인트

  • 기존 ASR 평가 지표인 WER과 CER은 인간 청취자의 지각과 낮은 상관관계를 가진다는 한계가 있습니다.
  • 단순한 오류율 측정만으로는 언어학적/의미론적 정보를 반영하기 어렵습니다.
  • 본 논문은 여러 평가 지표를 통합하여 '최소 편집 거리(minED)'라는 새로운 패러다임을 제안합니다.
  • 제시된 minED 접근법은 전사 오류와 인간의 실제 인지 과정을 병렬화하고, 오류 심각도 분석을 가능하게 합니다.

자동 음성 전사 (transcription) 를 평가하는 데 가장 널리 사용되는 지표인 단어 오류율 (Word Error Rate, WER) 과 문자 오류율 (Character Error Rate, CER) 은 인간 지각과 낮은 상관관계를 가지고 있으며 언어학적 및 의미론적 정보를 고려하지 못한다는 이유로 비판을 받아왔습니다. 인간의 지각을 근사화하려는 시도를 한 지표 기반 임베딩 (metric-based embeddings) 이 제안되었지만, WER 와 CER 과 달리 그 점수는 여전히 해석하기 어렵습니다. 본 논문에서는 선택된 지표를 포함시켜 오류율의 등가인 최소 편집 거리 (Minimum Edit Distance, minED) 를 얻기 위한 패러다임을 제시함으로써 이러한 문제를 극복합니다. 이 접근법은 전사 오류와 인간 지각을 병렬화하며, 또한 인간의 관점에서 이러한 오류의 중도 (severity) 에 대한 원래 연구 (original study) 를 가능하게 합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0