본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 06. 22:44

프랑스어 ASR 시스템의 토큰화 및 자기지도 학습에 대한 종합 분석

요약

본 논문은 엔드 투 엔드 ASR 시스템의 성능에 대한 기존의 CER/WER 기반 평가 지표의 한계를 지적하며, 하단 토큰화 알고리즘과 자기지도 학습 모델이 프랑스어 ASR 시스템에 미치는 영향을 종합적으로 분석합니다. 단순히 오류율만 고려하는 것이 아니라, 다양한 언어학적 및 음향학적 관점을 포괄하는 평가 지표 집합을 사용하여 심층적인 성능 평가를 수행했습니다.

핵심 포인트

  • ASR 시스템의 성능은 하이퍼파라미터와 모델 선택에 크게 의존한다.
  • 기존의 CER(문자 오류율) 및 WER(단어 오류율) 지표만으로는 ASR 시스템의 실제 다운스트림 애플리케이션 성능을 충분히 설명할 수 없다.
  • 본 연구는 프랑스어를 대상으로 하단 토큰화 알고리즘과 자기지도 학습 모델의 영향을 평가한다.
  • 평가 시에는 언어학적 및 음향학적 관점을 포괄하는 종합적인 지표 집합이 사용되었다.

엔드 투 엔드 (End-to-End) 자동 음성 인식 (ASR) 시스템의 성능은 다양한 애플리케이션으로의 통합을 가능하게 합니다. 이러한 음성 텍스트 변환 시스템에는 여러 가지 이점이 있지만, 하이퍼파라미터 및 모델 선택이 그 성능에 결정적인 역할을 합니다. 일반적으로 이러한 선택은 문자 오류율 (CER) 과/또는 단어 오류율 (WER) 지표만 고려함으로써 결정됩니다. 그러나 몇몇 연구에서 이러한 지표가 불완전하며 자동 전사 (transcripts) 의 다운스트림 애플리케이션을 충분히 설명하지 못한다는 것이 입증되었습니다. 본 논문에서는 프랑스어에 대한 정성적 연구를 수행하여 다양한 언어학적 및 음향학적 관점에서 하단 토큰화 알고리즘과 자기지도 학습 모델의 영향을 평가하는 데 포괄적인 평가 지표 집합을 사용했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0