구어 장애 음성(Dysarthric Speech)에 대한 파운데이션 ASR 모델의 적응: 사례 연구

자동 음성 인식 (ASR) 시스템은 구어 장애 (dysarthric speech) 음성에서 종종 성능이 저하되어, 일상적인 의사소통에서 해당 화자들에게 유용하게 사용되는 데 한계가 있습니다. 본 논문은 파운데이션 ASR 모델을 화자별 데이터에 적응시켜 구축한 구어 장애 화자를 위한 개인화된 ASR 시스템을 제시합니다. TEQST 도구를 사용하여 92시간의 낭독 음성을 수집하였으며, 이후 배포된 모바일 애플리케이션을 통해 수집된 8.8시간의 사용자 수정 데이터를 추가했습니다. Whisper를 시작점으로 하여, 미세 조정 (fine-tuning)을 통해 단 1.4시간의 적응 데이터만으로 단어 오류율 (word error rate)을 15.8%로 낮추었으며, 22.5시간을 사용했을 때는 10.7%에 도달했고, 수정 데이터를 포함한 모든 가용 데이터를 사용했을 때 9.7%라는 최상의 결과를 달성했습니다. LoRA 적응 (LoRA adaptation) 및/또는 Qwen3-ASR을 파운데이션 모델로 사용하는 것은 이 설정에서 더 낮은 성능을 보였습니다. 이러한 결과는 개인화된 미세 조정 (fine-tuning)이 파운데이션 ASR 모델을 구어 장애 음성에 대해 실질적으로 더 효과적으로 만들 수 있으며, 실제 배포에 적합하게 만들 수 있음을 보여줍니다.

Insights

구어 장애 음성(Dysarthric Speech)에 대한 파운데이션 ASR 모델의 적응: 사례 연구

요약

핵심 포인트

댓글

【보도자료】 Unity의 인앱 결제 SDK "Unity IAP 5.4" 출시 — D2C 기능으로 게임 개발자의 수익화 강화

운전대가 없다 — 테슬라 사이버캡, 오스틴 공도 첫 주행 | 6/30 테슬라 브리핑

Durable Objects + GLM-5.2 IDOR가 Claude를 이기다

【보도자료】 Unity의 인앱 결제 SDK "Unity IAP 5.4" 출시 — D2C 기능으로 게임 개발자의 수익화 강화

운전대가 없다 — 테슬라 사이버캡, 오스틴 공도 첫 주행 | 6/30 테슬라 브리핑

Durable Objects + GLM-5.2 IDOR가 Claude를 이기다