Gradient Reversal과 Variational Information Bottleneck을 통한 스푸핑 탐지(Spoofing
요약
생성형 음성 기술 발전에 따른 음성 스푸핑 탐지의 일반화 성능 문제를 해결하기 위한 연구입니다. 언어적 편향을 줄이기 위해 Gradient Reversal과 Variational Information Bottleneck을 결합한 새로운 프레임워크를 제안합니다.
핵심 포인트
- 언어적 단서에 의존하는 기존 탐지기의 아웃도메인 성능 저하 문제 지적
- Gradient Reversal을 통한 언어 불변(linguistic-invariant) 특징 추출
- VIB를 활용하여 비언어적 핵심 단서의 손실 방지
- DF Arena 데이터셋 실험 결과 EER 최대 36.2% 감소 달성
생성형 음성 기술의 급격한 발전은 음성 생체 인식(voice biometrics)의 신뢰성을 저해했습니다. 현재의 스푸핑 탐지기(spoofing detectors)는 인도메인(in-domain) 조건에서 평가될 때는 뛰어나지만, 아웃도메인(out-of-domain) 설정으로의 일반화 성능은 종종 떨어집니다. 우리는 이것이 언어적 편향(linguistic bias) 때문일 수 있음을 보여줍니다. 훈련 데이터에서 관찰되는 언어적 단서(linguistic cues)에 의존하게 되면 교차 데이터(cross-data)에 대한 강건성(robustness)이 저해될 수 있습니다. 우리는 교사-학생 적대적 학습(teacher-student adversarial learning)을 활용하는 언어 불변(linguistic-invariant) 스푸핑 탐지 프레임워크를 제안합니다. 외부 데이터셋의 언어적 콘텐츠로 사전 학습된 언어 인지 교사 모델(linguistic-aware teacher model)은 그래디언트 리버설(gradient reversal)을 통해 언어 정보를 최소화하도록 학생 탐지기(student detector)를 가이드합니다. 비언어적 단서(non-linguistic cues)가 의도치 않게 제거되는 것을 방지하기 위해, 우리는 주요 단서(principal cues)의 억제를 가능하게 하는 변분 정보 병목(Variational Information Bottleneck, VIB)을 통합합니다. 9개의 DF Arena 데이터셋에 걸쳐, 우리의 방법은 베이스라인(baseline)과 비교하여 EER(Equal Error Rate)에서 최대 36.2%의 상대적 감소를 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기