arXiv논문2026. 06. 15. 12:38

자기지도 학습 음성 모델에서 강건한 안티 스푸핑을 위한 전문가 혼합(Mixture-of-Experts) 구조로의 전환

요약

자기지도 학습 음성 모델에 MoE(Mixture-of-Experts) 구조를 적용하여 안티 스푸핑 성능을 높이는 연구입니다. 레이어별 게이팅 메커니즘을 통해 다양한 음향 패턴을 포착함으로써 미학습 합성 방식에 대한 강건성을 개선했습니다.

핵심 포인트

자기지도 학습 모델을 MoE 아키텍처로 변환하여 일반화 성능 향상
레이어별 게이팅 메커니즘을 통한 전문가 네트워크 제어
14개 데이터셋 평가 결과, macro EER을 5.46%에서 4.81%로 개선
베이스라인 대비 약 11.9%의 상대적 성능 향상 달성

최근 음성 생성 기술의 발전은 합성 음성의 자연스러움을 크게 향상시켰으며, 이로 인해 스푸핑 탐지(spoofing detection)가 점점 더 어려워지고 있습니다. 현재 안티 스푸핑(anti-spoofing) 시스템의 주요 한계점은 학습되지 않은 합성 방식에 대한 강건성(robustness)이 제한적이라는 것입니다. 본 연구에서는 일반화 성능을 향상시키기 위해 자기지도 학습(self-supervised) 음성 표현 모델을 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처로 변환합니다. 선택된 인코더 레이어의 피드포워드(Feed-forward) 블록을 레이어별 게이팅 메커니즘(layer-wise gating mechanism)에 의해 제어되는 다수의 전문가 네트워크로 교체함으로써, 전문가들이 자기지도 사전 학습(self-supervised pretraining) 동안 학습된 표현을 유지하면서도 상호 보완적인 음향 패턴을 포착할 수 있도록 합니다. 나아가 우리는 이러한 MoE 변환의 성능에 영향을 미치는 아키텍처 선택 사항을 분석하고 전문가들의 활성화 동작(activation behavior)을 조사합니다. 제안된 방식은 14개의 스푸핑 데이터셋에서 평가되었으며, macro EER을 5.46%에서 4.81%로 낮추어 베이스라인 대비 11.9%의 상대적 개선을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

자기지도 학습 음성 모델에서 강건한 안티 스푸핑을 위한 전문가 혼합(Mixture-of-Experts) 구조로의 전환

요약

핵심 포인트

댓글