arXiv논문2026. 06. 19. 11:49

대조 학습 (Contrastive Learning)을 결합한 오토인코더 (Autoencoder) 기반의 세그먼트 수준 중국어 음성 인지 기능

요약

대조 학습과 오토인코더를 결합하여 제한된 라벨링 데이터 환경에서도 견고한 음성 기반 인지 기능 저하 탐지 프레임워크를 제안합니다. 중국어 음성 데이터셋 실험을 통해 세그먼트 수준의 표현 학습이 임상적 분류 성능을 효과적으로 향상함을 입증했습니다.

핵심 포인트

오토인코더와 대조 학습을 결합한 세그먼트 수준 표현 학습 프레임워크 개발
데이터 증강 전략을 통해 데이터 부족 및 데이터셋 간 변동성 문제 해결
중국어 음성 데이터셋 기반 이진 및 3클래스 분류에서 경쟁력 있는 성능 확인
자원이 제한된 임상 환경에서 실용적인 인지 기능 스크리닝 가능성 제시

\noindent\textbf{배경 및 목적 (Background and Objective):} 음성은 인지 기능 저하 탐지에 있어 상당한 잠재력을 가진 저비용 및 비침습적 디지털 바이오마커 (digital biomarker)로 부상했습니다. 그러나 제한된 라벨링 데이터 (labeled data)와 데이터셋 간의 변동성 (cross-dataset variability)은 견고한 음성 기반 스크리닝 시스템 구축에 있어 여전히 주요한 과제로 남아 있습니다. \par\noindent\textbf{방법 (Methods):} 우리는 음성 기반 인지 기능 저하 탐지를 위한 세그먼트 수준 (segment-level) 표현 학습 (representation learning) 프레임워크를 개발했습니다. 음성 녹음 데이터는 짧은 세그먼트로 나누어 스펙트로그램 (spectrogram) 표현으로 변환되었습니다. 데이터가 제한된 조건에서의 견고성을 향상시키기 위해, 오프라인 및 온라인 증강 (augmentation) 전략을 오토인코더 (autoencoder) 기반의 표현 학습 및 대조 학습 (contrastive learning) 목적 함수와 결합하여 판별 가능한 잠재 표현 (discriminative latent representations)을 강화했습니다. \par\noindent\textbf{결과 (Results):} 네 개의 독립적인 중국어 음성 데이터셋을 대상으로 수행된 실험 결과, 이진 분류 (binary classification) 및 3클래스 분류 (three-class classification) 작업 모두에서 안정적이고 경쟁력 있는 성능을 입증하였으며, 특히 임상적으로 까다로운 3클래스 설정에서 눈에 띄는 개선을 보였습니다. 절제 연구 (Ablation studies)를 통해 제안된 프레임워크의 효과를 추가로 확인했습니다. \par\noindent\textbf{결론 (Conclusions):} 본 연구 결과는 세그먼트 수준의 음성 표현 학습이 자원이 제한된 임상 환경에서 인지 기능 저하 스크리닝을 위한 확장 가능하고 실용적인 접근 방식을 제공할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대조 학습 (Contrastive Learning)을 결합한 오토인코더 (Autoencoder) 기반의 세그먼트 수준 중국어 음성 인지 기능

요약

핵심 포인트

댓글