arXiv논문2026. 06. 09. 10:45

Paediatric-HGNN: 다중 스케일 음향 융합을 통한 아동 음성 내 비유창성 탐지를 위한 하이브리드 이종 그래프 신경망 (Hybrid

요약

아동의 음성 데이터에서 말더듬을 탐지하기 위해 계층적 이종 그래프 신경망(HGNN)을 활용한 Paediatric-HGNN 프레임워크를 제안합니다. 단어와 음향 세그먼트 간의 상호작용을 모델링하여 발달 중인 아동 음성의 특성을 효과적으로 포착합니다.

핵심 포인트

이종 그래프를 통한 어휘-음향 계층적 관계 모델링
CaPIN 네트워크를 활용한 문맥 인식 부분-전체 상호작용 구현
UCLASS 및 FluencyBank 코퍼스 기반 82.4% 가중 정확도 달성
조기 임상 개입을 위한 해석 가능한 탐지 도구 제공

자동 말더듬 탐지 (Automated stuttering detection, ASD) 시스템은 발달 중인 목소리의 높은 음향적 변동성과 병리적 말더듬 및 일반적인 발달적 비유창성 (disfluencies) 사이의 미묘한 차이로 인해 아동 음성 처리에 어려움을 겪고 있습니다. 본 연구에서는 아동 데이터에 맞춤화된 문맥 인식 부분-전체 상호작용 네트워크 (Context-aware Part-whole Interaction Network, CaPIN)를 사용하는 프레임워크인 Paediatric-HGNN을 소개합니다. 기존의 1D 신호 모델링 대신, 우리의 접근 방식은 어휘 단위 (단어 노드)와 세밀한 음향 세그먼트 (프레임 노드) 사이의 계층적 관계를 포착하는 이종 그래프 (heterogeneous graph)를 구축합니다. 선별된 아동 코퍼스 (UCLASS 및 FluencyBank)로 학습된 Paediatric-HGNN은 82.4%의 가중 정확도 (weighted accuracy)와 0.386의 일반적 비유창성 (Typical Disfluency) F1-score를 달성했습니다. 계층적인 어휘-음향 상호작용을 모델링함으로써 발달 과정에서의 "탐색" (searching) 행동을 포착하며, 이는 조기 임상 개입을 위한 더욱 강력하고 해석 가능한 도구를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Paediatric-HGNN: 다중 스케일 음향 융합을 통한 아동 음성 내 비유창성 탐지를 위한 하이브리드 이종 그래프 신경망 (Hybrid

요약

핵심 포인트

댓글