본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:58

SCRIBE: Indic ASR를 위한 진단적 평가 및 풍부한 전사 모델

요약

SCRIBE는 기존의 단어 오류율(WER)이 가진 한계를 극복하기 위해 오류 유형을 어휘, 문장 부호, 숫자, 도메인 엔티티 등으로 세분화하여 분석하는 진단 프레임워크입니다. 특히 교착어 구조에서 발생하는 연음 문제를 해결하기 위해 도메인 어휘 주입을 통한 정렬 방식을 제안합니다. 연구팀은 SCRIBE 프레임워크와 함께 힌디어, 말라얄람어, 칸나다어를 지원하는 오픈 웨이트 풍부한 전사 모델을 공개했습니다.

핵심 포인트

  • 기존 WER 지표가 오류 유형의 차이와 교착어의 구조적 특성을 반영하지 못하는 문제를 지적함
  • 어휘, 문장 부호, 숫자, 도메인 엔티티별로 오류를 분해하여 분석하는 SCRIBE 프레임워크 제안
  • 도메인 어휘 주입을 통해 연음(sandhi) 허용 정렬을 구현하여 평가 정확도 향상
  • 힌디어, 말라얄람어, 칸나다어를 위한 오픈 웨이트 풍부한 전사 모델 및 벤치마크 공개

자동 음성 인식 (ASR)은 수정 비용이 수동 입력보다 적을 때에만 타이핑을 대체하며, 이 임계값은 오류의 개수가 아닌 오류의 유형에 의해 결정됩니다. 예를 들어, 잘못 인식된 도메인 용어를 수정하는 비용은 쉼표를 삽입하는 비용보다 훨씬 더 많이 듭니다. 단어 오류율 (Word Error Rate, WER)은 두 가지 측면에서 실패합니다. 첫째, 서로 다른 오류 범주를 하나의 스칼라 값으로 통합해 버리며, 둘째, 유효한 연음 (sandhi) 병합이 점수를 높이는 교착어 (agglutinative languages) 구조에서 구조적으로 불이익을 줍니다. 우리는 도메인 어휘 주입 (domain vocabulary injection)을 통한 연음 허용 정렬 (sandhi-tolerant alignment)을 통해 어휘 (lexical), 문장 부호 (punctuation), 숫자 (numeral), 도메인 엔티티 (domain-entity) 비율로 범주별 오류 분해를 제공하는 진단 프레임워크인 SCRIBE를 소개합니다. 인간 검증 결과, WER이 일치하지 않는 지점에서 SCRIBE가 전문가의 판단과 일치함을 확인했습니다. 우리는 SCRIBE, LLM 큐레이션 파이프라인, 벤치마크, 그리고 힌디어 (Hindi), 말라얄람어 (Malayalam), 칸나다어 (Kannada)를 위한 오픈 웨이트 (open-weight) 풍부한 전사 모델을 공개합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0