arXiv논문2026. 06. 10. 10:33

RAT: ASV Anti-Spoofing을 위한 참조 증강 학습 (Reference-Augmented Training)

요약

참조 증강 학습(RAT) 전략을 통해 화자 참조 녹음 없이도 딥페이크 탐지 성능을 높이는 새로운 아키텍처를 제안합니다. 학습 과정에서 참조 채널의 의존도를 낮춤으로써 추론 시 참조가 없는 상황에서도 높은 불변성과 성능을 유지합니다.

핵심 포인트

RAT 전략은 추론 시 참조 채널 없이도 높은 탐지 성능을 제공함
학습 과정에서 참조 채널에 대한 의존도를 낮추는 불변성 유도
ASVspoof 5 벤치마크에서 SOTA 성능 달성
단일 탐지기만으로 대규모 앙상블 시스템을 능가하는 결과 도출

우리는 화자 참조 녹음 (speaker-reference recordings)을 조건으로 하는 스푸핑 대응 (spoofing countermeasure) 아키텍처를 소개하지만, 이것이 추론 (inference) 과정에서 참조를 효과적으로 무시하는 솔루션으로 수렴한다는 점을 관찰했습니다. 놀랍게도, 참조 채널 (reference channel)을 사용하여 학습하는 것은 추론 시 참조가 없거나 일치하지 않는 경우에도 딥페이크 탐지 (deepfake detection) 성능을 향상시키는 불변성 (invariance)을 유도합니다. 이러한 관찰을 바탕으로, 우리는 참조 증강 학습 (Reference-Augmented Training, RAT) 전략을 제안합니다. RAT는 추론 시 참조 녹음이 제로 벡터 (zero vector)로 대체되는 경우에도 단일 발화 (single-utterance) 베이스라인에 비해 향상된 탐지 성능을 제공합니다. 엄격한 분석을 통해, 우리는 최적화 (optimization) 과정이 참조의 기여도를 빠르게 감소시켜 추론이 참조 채널로부터 크게 독립되도록 만든다는 것을 입증합니다. RAT를 사용하여 우리는 단일 탐지기만으로 ASVspoof 5 벤치마크에서 2.57% EER 및 0.074 minDCF라는 최첨단 (state-of-the-art) 성능을 달성하였으며, 이는 대규모 앙상블 (ensemble) 시스템조차 능가하는 수치입니다.

AI 자동 생성 콘텐츠

원문 바로가기

RAT: ASV Anti-Spoofing을 위한 참조 증강 학습 (Reference-Augmented Training)

요약

핵심 포인트

댓글