arXiv논문2026. 06. 15. 05:35

조음 장애 음성 인식을 위한 개인화된 연합 학습 방안 연구

요약

본 논문은 조음 장애 화자의 음성 인식을 위한 개인화된 연합 학습(FL) 방안을 연구합니다. 기존 FL의 이질성 문제를 해결하기 위해 파라미터 및 임베딩 기반 두 가지 집계 전략을 제안했습니다. 실험 결과, 제안 방법들은 정규화 FedAvg 대비 WER 감소를 보이며 우수한 성능을 입증했습니다.

핵심 포인트

조음 장애 음성 인식은 기존 ASR에 어려움이 따르는 분야입니다.
연합 학습(FL)의 이질성 문제를 해결하기 위해 개인화가 필요합니다.
파라미터 및 임베딩 기반 두 가지 집계 전략을 제안했습니다.
제안된 방법들은 기존 FedAvg보다 WER 감소를 보였습니다.

음성 인식은 조음 장애(dysarthric) 화자에게 어려움이 따릅니다. 연합 학습(FL) 기반의 자동 음성 인식(ASR)은 프라이버시 보호에 효과적인 도구가 될 수 있지만, 화자 변동으로 인한 이질성 문제(heterogeneity issues)를 겪습니다. 모든 화자가 동일한 모델 구성 요소를 공유하도록 강제하는 것은 이러한 이질성 하에서는 최적이 아닐 수 있으므로, 개인화(personalization)가 유망한 방향입니다. 하지만 조음 장애 음성에 관한 관련 연구는 여전히 제한적입니다. 이에 본 논문은 파라미터 기반 평균화 전략과 임베딩 기반 평균화 전략을 포함하여 개인화를 달성하기 위한 두 가지 집계 전략을 탐구합니다. UASpeech와 TORGO를 사용한 실험 결과, 제안된 방법들은 각각 UASpeech에서 최대 0.99%의 절대적(3.15% 상대적) WER 감소 및 TORGO에서 0.56%의 절대적(4.73% 상대적) WER 감소로 기준선인 정규화 FedAvg보다 통계적으로 유의미하게 우수한 성능을 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

조음 장애 음성 인식을 위한 개인화된 연합 학습 방안 연구

요약

핵심 포인트

댓글