arXiv논문2026. 06. 30. 12:29

네덜란드어 마비성 구어의 인간 및 자동 인식 비교: 사례 연구

요약

마비성 구어(Dysarthria) 인식을 위해 인간 청취자와 최신 ASR 시스템의 성능을 비교한 연구입니다. 미세 조정을 거친 개인화된 DSR 모델이 인간보다 우수한 성능을 보였으며, 향후 특정 음소 및 자발적 발화 개선의 필요성을 제시합니다.

핵심 포인트

Whisper-large-V3, Google Chirp 3 등 최신 ASR의 마비성 구어 인식 한계 확인
미세 조정(Fine-tuning)을 통해 단어 오류율(WER)을 유의미하게 감소시킴
개인화된 DSR 모델이 인간 청취자보다 높은 인식 성능을 기록
향후 특정 음소 집중 및 자발적 발화 개선 연구가 필요함

개인화된 마비성 구어 인식 (Dysarthric Speech Recognition, DSR) 모델을 개발하려는 목표 아래, 본 연구에서는 심한 마비성 구어 (Dysarthria)를 가진 단일 화자의 네덜란드어 연속 낭독 및 자발적 발화 인식을 대상으로 인간 청취자와 세 가지 최첨단 기성 ASR 시스템 (Whisper-large-V3, Google Chirp 3, Omnilingual)의 인식 성능을 비교하였습니다. 결과에 따르면, 인간 청취자와 세 가지 기성 ASR 시스템 모두 평균 70%를 초과하는 단어 오류율 (Word Error Rate, WER)을 보였으며, 이는 DSR가 인간과 ASR 시스템 모두에게 매우 도전적인 과제임을 나타냅니다. 마비성 구어에 대한 미세 조정 (Fine-tuning)은 WER을 유의미하게 감소시켰습니다. 전체적인 WER은 여전히 상당히 높지만 (>23%), 개인화된 DSR 모델은 인간 청취자보다 우수한 성능을 보였으며, 그 성능은 마비성 구어 화자의 일상적인 의사소통을 지원하는 데 유용해지는 단계에 가까워지고 있습니다. 향후 연구는 특정 음소 (Phonemes)에 집중하면서, 자발적 발화에서의 개인화된 DSR 개선과 낭독 발화의 경우 더 긴 발화에 대한 개선에 초점을 맞추어야 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

네덜란드어 마비성 구어의 인간 및 자동 인식 비교: 사례 연구

요약

핵심 포인트

댓글