arXiv논문2026. 06. 17. 11:10

여러 스크립트가 중요한 경우: 임상 환경에서의 ASR 평가

요약

비영어권 임상 환경의 다중 스크립트 변이성 문제를 해결하기 위한 새로운 ASR 벤치마크인 MultiClin을 소개합니다. 기존 문자열 매칭 방식의 한계를 극복하고, 스크립트 일관성이 ASR 모델의 성능과 수렴에 미치는 영향을 분석했습니다.

핵심 포인트

다중 스크립트 변이성을 고려한 새로운 임상 ASR 벤치마크 MultiClin 제안
기존 단일 참조 평가 방식이 ASR 성능을 과소평가하는 문제 지적
스크립트 통합(unification)이 ASR 성능 향상에 가장 효과적임을 입증
스크립트 불일치가 모델 수렴 방해 및 철자 불확실성을 증가시킴

비영어권 임상 환경에서의 자동 음성 인식 (ASR)은 동일한 용어가 여러 가지 유효한 철자 형태로 나타날 수 있는 다중 스크립트 변이성 (multiscript variability)으로 인해 어려움을 겪습니다. 전통적인 문자열 매칭 (string-matching) 평가 지표는 철자 변이들을 오류로 취급함으로써 ASR 성능을 과소평가하는 경우가 많습니다. 이 문제를 해결하기 위해, 우리는 다중 스크립트 변이성에 대한 강건성 (robustness)을 평가하도록 설계된 임상 ASR 벤치마크인 MultiClin을 소개합니다. 다양한 ASR 모델을 대상으로 한 실험 결과, 다중 스크립트를 인지하는 평가가 기존의 단일 참조 (single-reference) 평가보다 인식 품질에 대해 더 공정한 평가를 제공함을 보여줍니다. 우리는 더 나아가 학습 과정 중 스크립트 일관성 (script consistency)의 영향을 조사하였으며, 일관되지 않은 스크립트 매핑이 철자 불확실성 (orthographic uncertainty)을 증가시키고 모델 수렴 (model convergence)을 방해하며, 50%의 균형 잡힌 매핑 비율에서 가장 높은 엔트로피 (entropy)를 생성한다는 것을 발견했습니다. 반면, 스크립트 통합 (script unification)은 일관되게 가장 우수한 ASR 성능을 나타냅니다. 우리의 데이터셋과 코드는 다음에서 공개적으로 사용할 수 있습니다: https://github.com/aitrics-ronaldo/Interspeech_MultiClin.

AI 자동 생성 콘텐츠

원문 바로가기

여러 스크립트가 중요한 경우: 임상 환경에서의 ASR 평가

요약

핵심 포인트

댓글