Whisper를 활용한 음성 신뢰도 감지를 위한 준지도 학습 프레임워크
요약
본 논문은 Whisper 인코더 임베딩과 해석 가능한 음향 특징(eGeMAPS) 및 목소리 스트레스/비유창성 보조 확률을 결합한 준지도 하이브리드 프레임워크를 제안합니다. 이 프레임워크는 레이블링되지 않은 데이터에서 불확실성을 인식하며 가짜 레이블을 생성하고 고품질 샘플만 학습에 활용하는 전략을 도입하여, 희귀 정답 데이터 의존도를 낮춥니다. 실험 결과, 본 접근 방식은 WavLM, HuBERT 등 기존 자기 지도 학습 모델들을 능가하는 성능(Macro-F1 0.751)을 달성했습니다.
핵심 포인트
- Whisper 임베딩과 eGeMAPS 같은 해석 가능한 음향 특징을 결합한 하이브리드 프레임워크를 제안함.
- 불확실성 인식 가짜 레이블링(Uncertainty-Aware Pseudo-Labelling) 전략을 사용하여 데이터 부족 문제를 해결함.
- 제안된 모델은 WavLM, HuBERT 등 기존 자기 지도 학습 기반 모델보다 우수한 성능을 입증함 (Macro-F1 0.751).
- 데이터의 양보다는 고품질 가짜 레이블링을 통한 데이터 품질이 신뢰도 감지에서 더 중요함을 확인시켜 줌.
화자의 신뢰도를 자동적으로 감지하는 것은 적응형 컴퓨팅에 매우 중요하지만, 제한된 레이블링 데이터와 운율적 주석의 주관성에 의해 제약을 받고 있습니다. 본 논문은 Whisper 인코더에서 추출한 깊은 의미론적 임베딩을 eGeMAPS 디스크립터로 구성된 해석 가능한 음향 특징 벡터 및 목소리 스트레스와 비유창성(disfluency)에 대한 보조 확률 추정치와 융합하는 준지도 하이브리드 프레임워크를 제안합니다. 희귀한 정답 데이터에 대한 의존도를 완화하기 위해, 모델이 레이블링되지 않은 데이터에 대해 레이블을 생성하고 고품질 샘플만 학습에 유지하는 불확실성 인식 가짜 레이블링(Uncertainty-Aware Pseudo-Labelling) 전략을 도입합니다. 실험 결과는 제안된 접근 방식이 Macro-F1 점수 0.751을 달성하여, WavLM, HuBERT, Wav2Vec 2.0을 포함한 자기 지도 학습 기반 모델들을 능가함을 입증했습니다. 또한 이 하이브리드 아키텍처는 단일 모달리티의 Whisper 기준선보다 우수한 성능을 보여, 소수 클래스에서 3% 개선을 달성했으며, 이는 명시적인 운율적 및 보조 특징이 깊은 의미론적 표현에서는 손실되는 필수적인 교정 신호를 제공함을 확인시켜 줍니다. 제거 연구(Ablation studies)는 또한 고신뢰도의 가짜 레이블로 구성된 세트가 무분별한 대규모 증강보다 우수하며, 이는 인식된 신뢰도 감지에서 데이터의 품질이 양보다 중요하다는 것을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기