본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 05:35

조음 장애 음성 인식을 위한 개인화된 연합 학습 방안 연구

요약

본 논문은 조음 장애 화자의 음성 인식을 위한 개인화된 연합 학습(FL) 방안을 연구합니다. 기존 FL의 이질성 문제를 해결하기 위해 파라미터 및 임베딩 기반 두 가지 집계 전략을 제안했습니다. 실험 결과, 제안 방법들은 정규화 FedAvg 대비 WER 감소를 보이며 우수한 성능을 입증했습니다.

핵심 포인트

  • 조음 장애 음성 인식은 기존 ASR에 어려움이 따르는 분야입니다.
  • 연합 학습(FL)의 이질성 문제를 해결하기 위해 개인화가 필요합니다.
  • 파라미터 및 임베딩 기반 두 가지 집계 전략을 제안했습니다.
  • 제안된 방법들은 기존 FedAvg보다 WER 감소를 보였습니다.

음성 인식은 조음 장애(dysarthric) 화자에게 어려움이 따릅니다. 연합 학습(FL) 기반의 자동 음성 인식(ASR)은 프라이버시 보호에 효과적인 도구가 될 수 있지만, 화자 변동으로 인한 이질성 문제(heterogeneity issues)를 겪습니다. 모든 화자가 동일한 모델 구성 요소를 공유하도록 강제하는 것은 이러한 이질성 하에서는 최적이 아닐 수 있으므로, 개인화(personalization)가 유망한 방향입니다. 하지만 조음 장애 음성에 관한 관련 연구는 여전히 제한적입니다. 이에 본 논문은 파라미터 기반 평균화 전략과 임베딩 기반 평균화 전략을 포함하여 개인화를 달성하기 위한 두 가지 집계 전략을 탐구합니다. UASpeech와 TORGO를 사용한 실험 결과, 제안된 방법들은 각각 UASpeech에서 최대 0.99%의 절대적(3.15% 상대적) WER 감소 및 TORGO에서 0.56%의 절대적(4.73% 상대적) WER 감소로 기준선인 정규화 FedAvg보다 통계적으로 유의미하게 우수한 성능을 보였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0