Gradient Reversal과 Variational Information Bottleneck을 통한 스푸핑 탐지(Spoofing

생성형 음성 기술의 급격한 발전은 음성 생체 인식(voice biometrics)의 신뢰성을 저해했습니다. 현재의 스푸핑 탐지기(spoofing detectors)는 인도메인(in-domain) 조건에서 평가될 때는 뛰어나지만, 아웃도메인(out-of-domain) 설정으로의 일반화 성능은 종종 떨어집니다. 우리는 이것이 언어적 편향(linguistic bias) 때문일 수 있음을 보여줍니다. 훈련 데이터에서 관찰되는 언어적 단서(linguistic cues)에 의존하게 되면 교차 데이터(cross-data)에 대한 강건성(robustness)이 저해될 수 있습니다. 우리는 교사-학생 적대적 학습(teacher-student adversarial learning)을 활용하는 언어 불변(linguistic-invariant) 스푸핑 탐지 프레임워크를 제안합니다. 외부 데이터셋의 언어적 콘텐츠로 사전 학습된 언어 인지 교사 모델(linguistic-aware teacher model)은 그래디언트 리버설(gradient reversal)을 통해 언어 정보를 최소화하도록 학생 탐지기(student detector)를 가이드합니다. 비언어적 단서(non-linguistic cues)가 의도치 않게 제거되는 것을 방지하기 위해, 우리는 주요 단서(principal cues)의 억제를 가능하게 하는 변분 정보 병목(Variational Information Bottleneck, VIB)을 통합합니다. 9개의 DF Arena 데이터셋에 걸쳐, 우리의 방법은 베이스라인(baseline)과 비교하여 EER(Equal Error Rate)에서 최대 36.2%의 상대적 감소를 달성했습니다.

Insights

Gradient Reversal과 Variational Information Bottleneck을 통한 스푸핑 탐지(Spoofing

요약

핵심 포인트

댓글

강건한 응집 구역 모델 (CZM) 시뮬레이션을 위한 인터페이스 인식 신경 뉴턴 프리컨디셔닝 (Interface-Aware Neural

LuxEmo: 룩셈부르크어를 위한 표현력이 풍부한 텍스트 음성 변환 (TTS) 코퍼스

DigitalCoach: 인간과 에이전트 기반 컴퓨터 사용 코칭에서의 커뮤니케이션 및 그라운딩 격차

LLM 에이전트를 위한 생성적 기술 조합 (Generative Skill Composition)

강건한 응집 구역 모델 (CZM) 시뮬레이션을 위한 인터페이스 인식 신경 뉴턴 프리컨디셔닝 (Interface-Aware Neural

LuxEmo: 룩셈부르크어를 위한 표현력이 풍부한 텍스트 음성 변환 (TTS) 코퍼스

DigitalCoach: 인간과 에이전트 기반 컴퓨터 사용 코칭에서의 커뮤니케이션 및 그라운딩 격차

LLM 에이전트를 위한 생성적 기술 조합 (Generative Skill Composition)