구어 장애 음성(Dysarthric Speech)에 대한 파운데이션 ASR 모델의 적응: 사례 연구
요약
구어 장애 음성 인식 성능을 높이기 위해 파운데이션 ASR 모델을 개인화된 데이터로 미세 조정하는 연구를 다룹니다. Whisper 모델을 기반으로 적은 양의 데이터만으로도 단어 오류율(WER)을 크게 낮출 수 있음을 입증했습니다.
핵심 포인트
- Whisper 모델 미세 조정을 통한 구어 장애 음성 인식 성능 향상
- 단 1.4시간의 데이터만으로 WER 15.8% 달성
- 가용 데이터를 모두 활용했을 때 최저 WER 9.7% 기록
- LoRA 및 Qwen3-ASR 대비 개인화된 미세 조정의 우수성 확인
자동 음성 인식 (ASR) 시스템은 구어 장애 (dysarthric speech) 음성에서 종종 성능이 저하되어, 일상적인 의사소통에서 해당 화자들에게 유용하게 사용되는 데 한계가 있습니다. 본 논문은 파운데이션 ASR 모델을 화자별 데이터에 적응시켜 구축한 구어 장애 화자를 위한 개인화된 ASR 시스템을 제시합니다. TEQST 도구를 사용하여 92시간의 낭독 음성을 수집하였으며, 이후 배포된 모바일 애플리케이션을 통해 수집된 8.8시간의 사용자 수정 데이터를 추가했습니다. Whisper를 시작점으로 하여, 미세 조정 (fine-tuning)을 통해 단 1.4시간의 적응 데이터만으로 단어 오류율 (word error rate)을 15.8%로 낮추었으며, 22.5시간을 사용했을 때는 10.7%에 도달했고, 수정 데이터를 포함한 모든 가용 데이터를 사용했을 때 9.7%라는 최상의 결과를 달성했습니다. LoRA 적응 (LoRA adaptation) 및/또는 Qwen3-ASR을 파운데이션 모델로 사용하는 것은 이 설정에서 더 낮은 성능을 보였습니다. 이러한 결과는 개인화된 미세 조정 (fine-tuning)이 파운데이션 ASR 모델을 구어 장애 음성에 대해 실질적으로 더 효과적으로 만들 수 있으며, 실제 배포에 적합하게 만들 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기