FoeGlass: 오디오 딥페이크 탐지기 레드팀 활동을 위한 충분하고 간단한 인컨텍스트 러닝 (In-Context Learning)
요약
FoeGlass는 오디오 딥페이크 탐지(ADD) 모델의 취약점을 찾기 위한 최초의 블랙박스 자동 레드팀 방법론입니다. LLM의 인컨텍스트 러닝을 활용해 TTS 모델의 입력 공간을 탐색하며, 탐지 모델을 속이는 오디오 샘플을 자동으로 생성합니다.
핵심 포인트
- LLM 인컨텍스트 러닝 기반의 자동 레드팀 방법론 제안
- 기존 방식 대비 미탐율(FNR)을 최대 94% 개선
- 생성된 공격 샘플의 모델 간 전이 가능성 입증
- 미세 조정을 통해 탐지기 강건성을 최대 41% 향상
오디오 딥페이크 탐지 (Audio Deepfake Detection, ADD) 모델은 텍스트 음성 변환 (Text-to-Speech, TTS) 모델의 악의적인 사용에 대응하는 데 매우 중요합니다. ADD 모델을 평가하고 강화하려면 생성된 오디오의 범위를 포괄하고 오류가 많이 발생하는 영역을 강조하는 데이터셋을 개발해야 합니다. 기존의 데이터셋 개발 전략은 두 가지 과제에 직면해 있습니다: (i) 수동 수집, 그리고 (ii) ADD 모델의 사각지대 발견의 비효율성입니다. 이러한 과제를 해결하기 위해, 우리는 ADD를 위한 최초의 블랙박스 (black-box) 자동 레드팀 (red-teaming) 방법론인 FoeGlass를 제안합니다. FoeGlass는 최첨단 딥페이크 벤치마크에서 충분히 탐색되지 않은 생성 오디오 공간 내에서 ADD의 실패 모드 (failure modes)를 효과적으로 발견합니다. FoeGlass는 LLM의 인컨텍스트 러닝 (In-Context Learning) 능력을 사용하여 TTS 모델의 입력 공간을 탐색하며, 모든 구성 요소에 대한 블랙박스 접근 권한만을 사용하여 대상 ADD를 속이는 오디오 샘플을 생성합니다. 다양성 측정 (diversity measurements)을 기반으로 정교하게 설계된 컨텍스트를 사용함으로써, FoeGlass는 자동 레드팀 시스템에서 흔히 발생하는 모드 붕괴 (mode collapse) 문제를 완화합니다. 여러 오픈 소스 ADD 및 TTS 모델에 대한 실증적 평가 결과, FoeGlass에서 생성된 데이터는 수동 감독 없이도 무조건적 샘플링 (unconditional sampling) 베이스라인 및 최근 스푸핑 (spoofing) 데이터셋에 비해 미탐율 (false negative rates)을 최대 94%까지 실질적으로 개선함을 보여주었습니다. 또한, FoeGlass에 의해 생성된 공격이 서로 다른 대상 ADD 간에 전이 가능하다는 것을 보여줌으로써, ADD 시스템의 자동 레드팀 활동을 위한 광범위한 적용 가능성과 사용 편의성을 입증했습니다. 마지막으로, FoeGlass로 생성된 샘플로 ADD 모델을 미세 조정 (fine-tuning)하면 탐지기의 강건성 (robustness)이 현저히 향상됨을 확인했습니다 (최대 41% 향상).
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기