arXiv논문2026. 06. 16. 22:50

시계열 피라미드 모델링(Temporal Pyramid Modeling)을 통한 강건한 스푸핑 음성 탐지

요약

다양한 수용 영역을 가진 병렬 시계열 컨볼루션을 활용하여 스푸핑 음성을 탐지하는 시계열 피라미드 모델링 기법을 제안합니다. XLS-R 표현과 결합하여 다중 스케일의 단서를 포착함으로써 기존 SOTA 모델 대비 뛰어난 일반화 성능을 입증했습니다.

핵심 포인트

다양한 수용 영역을 가진 병렬 시계열 컨볼루션 활용
XLS-R 자기지도 학습 표현과 프런트엔드 어댑터 통합
PartialSpoof 데이터셋에서 99.24% AUC 달성
언어와 독립적인 스푸핑 아티팩트 탐지 능력 확인
도메인 및 언어 변화에 따른 적응 전략의 필요성 제시

스푸핑 음성 탐지(Spoofed speech detection)는 점점 더 현실적인 합성(synthesis), 음성 변환(voice conversion), 그리고 재생 공격(replay attacks)으로 인해 어려움을 겪고 있으며, 데이터셋 간 일반화(cross-dataset generalization)는 여전히 주요한 한계로 남아 있습니다. 본 연구에서는 국소적인 아티팩트(local artifacts)부터 전역적인 운율적 불규칙성(global prosodic irregularities)에 이르기까지 다중 스케일의 스푸핑 단서(multi-scale spoofing cues)를 포착하기 위해, 다양한 수용 영역(receptive fields)을 가진 병렬 시계열 컨볼루션(parallel temporal convolutions)을 활용하는 시계열 피라미드 어댑터(Temporal Pyramid Adapter)를 제안합니다. 또한, Mel, Sinc, 그리고 다중 스케일 시계열 모델링을 위한 시계열 피라미드(Temporal Pyramid) 설계를 포함한 프런트엔드 어댑터(front-end adapters)와 결합된 자기지도 학습(self-supervised) XLS-R 표현(representations)을 통합했습니다. 제안된 모델은 ASVspoof 2017, ASVspoof 2021 (DF/LA), PartialSpoof, DiffSSD, 그리고 다국어 HQ-MPSD 데이터셋을 포함한 여러 벤치마크를 통해 평가되었습니다. 실험 결과, 시계열 피라미드(Temporal Pyramid) 모델은 PartialSpoof 데이터베이스에서 99.24%의 AUC와 3.87%의 EER을 달성하였으며, 이는 베이스 모델 및 LCNN-BLSTM (9.87% EER) 및 TRACE (8.08% EER)와 같은 여러 SOTA(State-of-the-art) 베이스라인을 크게 상회하는 성능입니다. 또한, 다국어 평가를 통해 스푸핑 아티팩트(spoofing artifact)가 언어와 독립적임을 확인했습니다. 자기지도 표현(self-supervised representations)이 강건성(robustness)을 향상시키기는 하지만, 도메인 및 언어 변화(domain and language shifts) 하에서는 성능이 저하되므로, 더 나은 적응(adaptation) 및 교정(calibration) 전략의 필요성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

시계열 피라미드 모델링(Temporal Pyramid Modeling)을 통한 강건한 스푸핑 음성 탐지

요약

핵심 포인트

댓글