본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 12:38

자기지도 학습 음성 모델에서 강건한 안티 스푸핑을 위한 전문가 혼합(Mixture-of-Experts) 구조로의 전환

요약

자기지도 학습 음성 모델에 MoE(Mixture-of-Experts) 구조를 적용하여 안티 스푸핑 성능을 높이는 연구입니다. 레이어별 게이팅 메커니즘을 통해 다양한 음향 패턴을 포착함으로써 미학습 합성 방식에 대한 강건성을 개선했습니다.

핵심 포인트

  • 자기지도 학습 모델을 MoE 아키텍처로 변환하여 일반화 성능 향상
  • 레이어별 게이팅 메커니즘을 통한 전문가 네트워크 제어
  • 14개 데이터셋 평가 결과, macro EER을 5.46%에서 4.81%로 개선
  • 베이스라인 대비 약 11.9%의 상대적 성능 향상 달성

최근 음성 생성 기술의 발전은 합성 음성의 자연스러움을 크게 향상시켰으며, 이로 인해 스푸핑 탐지(spoofing detection)가 점점 더 어려워지고 있습니다. 현재 안티 스푸핑(anti-spoofing) 시스템의 주요 한계점은 학습되지 않은 합성 방식에 대한 강건성(robustness)이 제한적이라는 것입니다. 본 연구에서는 일반화 성능을 향상시키기 위해 자기지도 학습(self-supervised) 음성 표현 모델을 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처로 변환합니다. 선택된 인코더 레이어의 피드포워드(Feed-forward) 블록을 레이어별 게이팅 메커니즘(layer-wise gating mechanism)에 의해 제어되는 다수의 전문가 네트워크로 교체함으로써, 전문가들이 자기지도 사전 학습(self-supervised pretraining) 동안 학습된 표현을 유지하면서도 상호 보완적인 음향 패턴을 포착할 수 있도록 합니다. 나아가 우리는 이러한 MoE 변환의 성능에 영향을 미치는 아키텍처 선택 사항을 분석하고 전문가들의 활성화 동작(activation behavior)을 조사합니다. 제안된 방식은 14개의 스푸핑 데이터셋에서 평가되었으며, macro EER을 5.46%에서 4.81%로 낮추어 베이스라인 대비 11.9%의 상대적 개선을 달성했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0