arXiv논문2026. 05. 28. 13:22

스크립트 장벽 허물기: 비라틴 문자 기반 ASR 오류 분석을 위한 품사(PoS) 기반 자동 정렬 구현

요약

비라틴 문자 기반 ASR 시스템의 오류 분석을 위해 품사(PoS) 기반의 자동 정렬 메커니즘을 제안합니다. 기존 도구의 한계를 넘어 언어 중립적인 정렬을 통해 다양한 문자 체계에서 정밀한 언어적 오류 분석을 가능하게 합니다.

핵심 포인트

비라틴 문자 지원을 위한 언어 중립적 자동 정렬 메커니즘 제안
PoS(품사) 기반의 세밀한 ASR 오류 특성화 구현
아부기다, 알파벳, 아브자드 등 다양한 문자 체계 검증
오류 분석 정보를 활용한 ASR 성능(WER) 개선 입증

자동 음성 인식 (Automatic Speech Recognition, ASR) 시스템은 일반적으로 단어 오류율 (Word Error Rate, WER)과 같은 집계 지표를 사용하여 평가되는데, 이러한 지표는 오류의 언어적 구조를 포착하지 못합니다. 품사 (Part-of-Speech, PoS)별 오류 특성화와 같은 세밀한 분석을 위해서는 ASR 가설 (hypotheses)과 참조 전사 (reference transcriptions) 사이의 정확한 정렬 (alignment)이 필요합니다. 그러나 기존의 정렬 도구들은 비라틴 문자 (non-Latin scripts)로 작성된 언어에 대해서는 신뢰할 수 없는 경우가 많습니다. 본 연구에서는 ASR 아키텍처 전반과 라틴 및 비라틴 문자로 작성된 언어 모두에 적용 가능한 견고하고 자동화된 언어 중립적 (language-agnostic) 정렬 메커니즘을 제안함으로써 이러한 격차를 해결합니다. 이를 통해 가설, 참조, 평가 시퀀스의 일관된 정렬을 가능하게 하여 하위 언어 분석 (downstream linguistic analysis)을 위한 기초를 형성합니다. 이를 바탕으로, 우리는 확장 가능하고 재현 가능한 PoS별 오류 분석을 수행하기 위해 표준 PoS 태거 (taggers)를 사용합니다. 특히, 우리는 세 가지 주요 분절 문자 체계인 아부기다 (Abugida: 타밀어, 힌디어, 칸나다어), 알파벳 (Alphabetic: 영어, 러시아어, 그리스어), 그리고 아브자드 (Abjad: 아랍어)에 대해 정렬 및 하위 ASR 오류 분석을 수행합니다. 나아가, 이러한 오류 정보가 ASR 학습 과정에서 어떻게 활용되어 WER과 같은 지표를 개선할 수 있는지 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

스크립트 장벽 허물기: 비라틴 문자 기반 ASR 오류 분석을 위한 품사(PoS) 기반 자동 정렬 구현

요약

핵심 포인트

댓글