오디오 모델 내 설명의 인지된 취약성: 예측값의 변화 없는 속성(Attribution) 조작
요약
오디오 딥페이크 탐지 모델의 사후 설명(post-hoc explanation) 방법론이 가진 취약성을 연구한 논문입니다. 심리음향학적 프레임워크를 통해 모델의 예측 결과는 유지하면서 설명 히트맵만 왜곡하는 공격 가능성을 입증했습니다.
핵심 포인트
- 오디오 딥페이크 탐지 모델의 설명 조작 취약성 조사
- 심리음향학적 프레임워크를 통한 들리지 않는 섭동 최적화
- 예측값은 유지하면서 속성(Attribution)만 왜곡하는 공격 입증
- 도메인 특화 지각 오디오 품질 지표를 통한 조작 비용 평가
본 논문은 오디오 딥페이크 탐지(audio deepfake detection)에서 사후 설명(post-hoc explanation) 방법론의 취약성을 조사합니다. 설명 조작에 관한 기존 연구들이 표준 $L_p$ 지표를 사용하여 이미지에 집중했던 것과 달리, 본 연구에서는 모델의 속성(attribution)을 최종 분류(classification)로부터 분리하기 위해 들리지 않는 섭동(inaudible perturbations)을 최적화하는 심리음향학적 프레임워크(psychoacoustic framework)를 도입합니다. 우리는 엄격한 예측 보존 제약 조건(prediction-preserving constraints) 하에서 최첨단 아키텍처들을 대상으로 이러한 취약성을 평가합니다. 설명 정렬 기준(explanation alignment criteria)과 함께 도메인 특화 지각 오디오 품질 지표(perceptual audio quality metrics)를 통해 조작 비용을 평가함으로써, 우리의 프레임워크는 공격자가 예측된 딥페이크 레이블(deepfake label)을 유지하면서도 자동화된 설명 히트맵(explanation heatmaps)을 체계적으로 왜곡할 수 있음을 입증합니다. 전체 코드는 다음에서 확인할 수 있습니다: https://github.com/cncPomper/Audio-XAI
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기