무엇을 오류로 간주할 것인가? 비전형적 ASR을 위한 이중 참조 벤치마킹
요약
비전형적 음성 인식(ASR) 평가 시 발생하는 '있는 그대로의 전사(verbatim)'와 '의도된 전사(intended)' 간의 혼동 문제를 다룹니다. 말더듬 발화 사례를 통해 11개 모델을 벤치마킹하며, 사용 사례에 맞는 적절한 참조 기준 선택의 중요성을 강조합니다.
핵심 포인트
- 비전형적 발화에서 verbatim과 intended라는 두 가지 유효한 참조 방식 존재
- 단일 정답(ground truth) 사용 시 모델 성능 평가의 왜곡 가능성 제기
- 말더듬 발화 대상 11개 ASR 모델의 벤치마킹 수행
- 사용 사례에 따라 적절한 전사 참조 기준을 선택하는 것이 필수적임
ASR (Automatic Speech Recognition, 자동 음성 인식) 시스템은 비전형적 발화 (atypical speech)에서 성능이 저하된다는 보고가 자주 있어 왔습니다. 흔히 혼동되는 복합적인 요인은, 문맥과 사용 사례에 따라 비전형적 음성 인식에서 두 가지 유효한 전사 참조 (transcription references)가 존재한다는 점입니다: 즉, 있는 그대로의 전사 (verbatim; 반복/연장 등을 포함하여 실제로 생성된 발화)와 의도된 전사 (intended; 비유창성 (disfluencies)이 제거된 텍스트의 표준 형태)입니다. 대부분의 ASR 평가는 이러한 이중성을 단일한 정답 (ground truth)으로 혼동하며, 있는 그대로의 충실도 (verbatim faithfulness)를 무시한 채 비유창성을 삭제하는 시스템에 보상을 줍니다. 본 연구에서는 사례 연구로서 비전형적인 말더듬 발화 (stuttered speech)에 대해 encoder-decoder, CTC 및 transducer 계열의 11개 ASR 모델을 verbatim 및 intended 참조를 모두 사용하여 벤치마킹합니다. 우리의 정량적 평가는 두 가지 전사 스타일을 사용할 때 모델의 성능과 순위에서 나타나는 격차를 강조합니다. 이 분석을 통해, 우리는 특히 비전형적 ASR의 경우 사용 사례에 따라 유효한 모델 선택을 위해 적절한 전사 참조를 선택하는 것이 중요하다는 점을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기