arXiv논문2026. 05. 20. 11:00

EMO-BOOST: 딥페이크 탐지의 일반화 성능 향상을 위한 감정 증강 오디오-비주얼 특징

요약

EMO-BOOST는 딥페이크 탐지의 일반화 성능을 높이기 위해 감정(Emotion)이라는 고수준의 의미론적 단서를 활용하는 멀티모달 프레임워크입니다. 시각 및 오디오 감정 인식 모듈인 EmoForensics를 기존의 저수준 탐지기와 결합하여, 학습 데이터에 없던 새로운 조작 방식에 대해서도 효과적인 탐지가 가능하도록 설계되었습니다.

핵심 포인트

감정을 고수준의 의미론적 단서로 활용하여 딥페이크 탐지의 일반화 성능을 개선함
시각 및 오디오 스트림 간의 모달 내(Intra-modal) 및 모달 간(Inter-modal) 시간적 일관성을 모델링하는 EmoForensics 제안
저수준 집중형 방식과 감정 기반 방식의 상호 보완적 신호 결합을 통해 성능 향상 도모
FakeAVCeleb 데이터셋에서 평균 교차 조작 일반화 AUC를 2.1% 향상시킴

생성형 AI (Generative AI) 모델이 발전할 때마다 포렌식 (Forensics) 분야는 점점 더 큰 압박을 받고 있습니다. 새로운 생성 기술이 끊임없이 등장함에 따라, 모든 조작 방식에 대한 데이터를 각각 수집하여 딥페이크 탐지 모델을 학습시키는 것은 불가능합니다. 따라서 학습 과정에서 보지 못한 딥페이크에 대해 일반화 (Generalizing)하는 것은 현재 딥페이크 탐지 연구의 주요 과제 중 하나입니다. 이 과제를 해결하기 위해, 우리는 고수준의 의미론적 단서 (High-level semantic cues)를 활용하며, 이러한 단서가 보지 못한 유형의 조작에 일반화할 때 저수준의 집중형 접근 방식 (Low-level focused approaches)을 지원할 수 있다고 주장합니다. 본 연구에서 우리는 감정 (Emotions)을 고수준의 의미론적 단서로 연구합니다. 우리는 기존의 RGB 및 음향 중심 딥페이크 탐지기를 우리의 감정 기반 딥페이크 탐지기인 EmoForensics와 결합한 멀티모달 (Multimodal) 딥페이크 탐지 프레임워크인 Emo-Boost를 제안합니다. EmoForensics는 시각 및 오디오 감정 인식 모듈을 활용하며, 오디오-비주얼 스트림으로부터 감정 표현의 모달 내 (Intra-modal) 및 모달 간 (Inter-modal) 시간적 일관성 (Temporal consistency)을 모델링합니다. 우리는 EmoForensics와 저수준 집중형 방식이 상호 보완적인 신호를 포착한다는 것을 발견했습니다. 결과적으로, EmoBoost에서 두 신호를 결합함으로써 FakeAVCeleb 데이터셋에서 평균 교차 조작 일반화 AUC (Average cross-manipulation generalization AUC)를 2.1% 향상시켰습니다.

AI 자동 생성 콘텐츠

원문 바로가기

EMO-BOOST: 딥페이크 탐지의 일반화 성능 향상을 위한 감정 증강 오디오-비주얼 특징

요약

핵심 포인트

댓글