무엇을 오류로 간주할 것인가? 비전형적 ASR을 위한 이중 참조 벤치마킹

ASR (Automatic Speech Recognition, 자동 음성 인식) 시스템은 비전형적 발화 (atypical speech)에서 성능이 저하된다는 보고가 자주 있어 왔습니다. 흔히 혼동되는 복합적인 요인은, 문맥과 사용 사례에 따라 비전형적 음성 인식에서 두 가지 유효한 전사 참조 (transcription references)가 존재한다는 점입니다: 즉, 있는 그대로의 전사 (verbatim; 반복/연장 등을 포함하여 실제로 생성된 발화)와 의도된 전사 (intended; 비유창성 (disfluencies)이 제거된 텍스트의 표준 형태)입니다. 대부분의 ASR 평가는 이러한 이중성을 단일한 정답 (ground truth)으로 혼동하며, 있는 그대로의 충실도 (verbatim faithfulness)를 무시한 채 비유창성을 삭제하는 시스템에 보상을 줍니다. 본 연구에서는 사례 연구로서 비전형적인 말더듬 발화 (stuttered speech)에 대해 encoder-decoder, CTC 및 transducer 계열의 11개 ASR 모델을 verbatim 및 intended 참조를 모두 사용하여 벤치마킹합니다. 우리의 정량적 평가는 두 가지 전사 스타일을 사용할 때 모델의 성능과 순위에서 나타나는 격차를 강조합니다. 이 분석을 통해, 우리는 특히 비전형적 ASR의 경우 사용 사례에 따라 유효한 모델 선택을 위해 적절한 전사 참조를 선택하는 것이 중요하다는 점을 강조합니다.

Insights

무엇을 오류로 간주할 것인가? 비전형적 ASR을 위한 이중 참조 벤치마킹

요약

핵심 포인트

댓글

자연스러움이 항상 적절한가? TTS 평가를 위한 다양한 도메인별 자연스러움(Naturalness) 및 적절성(Appropriateness) 조사

경합하는 보상을 통한 LLM의 과잉 거부(Over-Refusal) 문제 해결

전이 확률을 모르는 MDP에서 정책 최적화(Policy Optimization)를 통한 데이터 의존적 후회 한계(Data-Dependent

구어 장애 음성(Dysarthric Speech)에 대한 파운데이션 ASR 모델의 적응: 사례 연구

자연스러움이 항상 적절한가? TTS 평가를 위한 다양한 도메인별 자연스러움(Naturalness) 및 적절성(Appropriateness) 조사

경합하는 보상을 통한 LLM의 과잉 거부(Over-Refusal) 문제 해결

전이 확률을 모르는 MDP에서 정책 최적화(Policy Optimization)를 통한 데이터 의존적 후회 한계(Data-Dependent

구어 장애 음성(Dysarthric Speech)에 대한 파운데이션 ASR 모델의 적응: 사례 연구