Dravidian 및 저자원 언어를 위한 Whisper의 디코더 불일치 문제 해결
요약
Whisper 모델이 Dravidian과 같은 저자원 언어에서 높은 오류율을 보이는 원인을 분석하고, 디코더 불균형 문제를 해결하기 위한 두 가지 개선 방안을 제안합니다. Weighted-Attention과 Self-Conditioning 기법을 통해 저자원 및 교착어에서의 음성 인식 성능을 향상시켰습니다.
핵심 포인트
- Dravidian 언어의 희소한 토큰 분포와 높은 어휘 다양성 분석
- 셀프 어텐션과 크로스 어텐션 간의 디코더 불균형 확인
- Weighted-Attention을 통한 어텐션 소스 적응적 조절
- Self-Conditioning을 통한 토큰 일관성 및 WER 개선
Whisper와 같은 다국어 자동 음성 인식 (ASL) 모델은 고자원 언어에서는 뛰어난 성능을 보이지만, Dravidian 언어의 경우 Indo-Aryan 언어에 비해 상당히 높은 단어 오류율 (WER)을 나타냅니다. 언어적 및 데이터셋 분석을 통해, 우리는 Dravidian 언어가 더 긴 단어, 더 높은 어휘 다양성, 그리고 더 낮은 반복성을 가지고 있으며, 이로 인해 희소한 토큰 분포 (sparse token distributions)와 빈번한 문자 수준의 치환 오류 (character-level substitution errors)가 발생한다는 것을 보여줍니다. 베이스라인 미세 조정 (fine-tuning)을 통해 셀프 어텐션 (self-attention, 언어적 문맥)과 크로스 어텐션 (cross-attention, 음향적 단서) 사이의 디코더 불균형이 더욱 명확히 드러납니다. 합성 토큰 반복 (synthetic token-repetition) 실험은 잠재적인 이득을 시사하지만, 이는 실용적이지 않습니다. 이러한 관찰에 착안하여, 우리는 두 가지 디코더 수준의 개선 사항을 도입합니다: 어텐션 소스를 적응적으로 균형 있게 조절하는 Weighted-Attention과, 토큰 일관성을 향상시키기 위해 중간 예측값을 다시 주입하는 Self-Conditioning입니다. 실험 결과, 저자원 언어 및 교착어 (agglutinative languages)에서 일관된 WER 감소를 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기