arXiv논문2026. 06. 09. 11:50

Dravidian 및 저자원 언어를 위한 Whisper의 디코더 불일치 문제 해결

요약

Whisper 모델이 Dravidian과 같은 저자원 언어에서 높은 오류율을 보이는 원인을 분석하고, 디코더 불균형 문제를 해결하기 위한 두 가지 개선 방안을 제안합니다. Weighted-Attention과 Self-Conditioning 기법을 통해 저자원 및 교착어에서의 음성 인식 성능을 향상시켰습니다.

핵심 포인트

Dravidian 언어의 희소한 토큰 분포와 높은 어휘 다양성 분석
셀프 어텐션과 크로스 어텐션 간의 디코더 불균형 확인
Weighted-Attention을 통한 어텐션 소스 적응적 조절
Self-Conditioning을 통한 토큰 일관성 및 WER 개선

Whisper와 같은 다국어 자동 음성 인식 (ASL) 모델은 고자원 언어에서는 뛰어난 성능을 보이지만, Dravidian 언어의 경우 Indo-Aryan 언어에 비해 상당히 높은 단어 오류율 (WER)을 나타냅니다. 언어적 및 데이터셋 분석을 통해, 우리는 Dravidian 언어가 더 긴 단어, 더 높은 어휘 다양성, 그리고 더 낮은 반복성을 가지고 있으며, 이로 인해 희소한 토큰 분포 (sparse token distributions)와 빈번한 문자 수준의 치환 오류 (character-level substitution errors)가 발생한다는 것을 보여줍니다. 베이스라인 미세 조정 (fine-tuning)을 통해 셀프 어텐션 (self-attention, 언어적 문맥)과 크로스 어텐션 (cross-attention, 음향적 단서) 사이의 디코더 불균형이 더욱 명확히 드러납니다. 합성 토큰 반복 (synthetic token-repetition) 실험은 잠재적인 이득을 시사하지만, 이는 실용적이지 않습니다. 이러한 관찰에 착안하여, 우리는 두 가지 디코더 수준의 개선 사항을 도입합니다: 어텐션 소스를 적응적으로 균형 있게 조절하는 Weighted-Attention과, 토큰 일관성을 향상시키기 위해 중간 예측값을 다시 주입하는 Self-Conditioning입니다. 실험 결과, 저자원 언어 및 교착어 (agglutinative languages)에서 일관된 WER 감소를 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Dravidian 및 저자원 언어를 위한 Whisper의 디코더 불일치 문제 해결

요약

핵심 포인트

댓글