arXiv논문2026. 06. 23. 12:07

비언어적 발성(NVVs)에서의 화자 식별: 조건부 증류(Conditional Distillation) 및 전문가 혼합(Mixture of

요약

비언어적 발성(NVVs) 환경에서도 화자의 정체성을 일관되게 식별하기 위한 새로운 프레임워크를 제안합니다. MoE 모듈과 조건부 증류 기술을 활용하여 음성 성능 저하 없이 NVV에 대한 화자 확인 성능을 크게 개선했습니다.

핵심 포인트

NVV 데이터 미세 조정 시 발생하는 치명적 망각 문제 해결
MoE 모듈과 도메인 인식 라우팅을 통한 프레임워크 강화
조건부 증류를 통해 음성-대-음성 정확도 유지
음성-NVV EER을 38.93%에서 22.66%로 대폭 감소

표현력이 풍부한 텍스트 음성 변환 (TTS) 및 음성 변환 (VC) 시스템이 자연스러움을 높이기 위해 비언어적 발성 (Non-Verbal Vocalizations, NVVs)을 점점 더 많이 생성함에 따라, 언어적 및 비언어적 세그먼트 모두에서 정체성 일관성을 객관적으로 평가하기 위한 신뢰할 수 있는 화자 확인 (Speaker Verification, SV)이 필수적이 되고 있습니다. 그러나 현재의 SV 시스템은 NVVs에 대한 일반화 성능이 떨어지며, NVV 데이터로 미세 조정 (Fine-tuning)을 수행할 경우 음성 성능에 대한 치명적 망각 (Catastrophic Forgetting)이 발생합니다. 본 연구에서는 10가지 NVV 유형에 걸친 최초의 체계적인 연구를 제시하며, 동결된 Data2Vec 자기 지도 학습 (Self-supervised) 특징과 ECAPA-TDNN을 결합하고, 학습된 도메인 인식 라우팅 (Domain-aware routing)을 갖춘 전문가 혼합 (Mixture of Experts, MoE) 모듈로 강화된 프레임워크를 제안합니다. 사전 학습된 교사 (Teacher) 모델을 통한 음성 입력에 대한 조건부 증류 (Conditional Distillation) 손실은 음성-대-음성 정확도를 유지하며, 대조 손실 (Contrastive Loss)은 음성과 NVV 간의 도메인 격차를 메워줍니다. 우리의 방법은 사전 학습된 베이스라인 대비 음성-NVV EER (Equal Error Rate)을 38.93%에서 22.66%로 낮추었으며, 증류 (Distillation)를 통해 음성 EER을 13.17%에서 9.24%로 개선했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

비언어적 발성(NVVs)에서의 화자 식별: 조건부 증류(Conditional Distillation) 및 전문가 혼합(Mixture of

요약

핵심 포인트

댓글