InstantForget: 추론 시점의 특징 리셋을 통한 업데이트가 필요 없는 백도어 언러닝 (Backdoor Unlearning)
요약
모델 파라미터를 업데이트하지 않고도 추론 시점에 백도어 공격을 제거하는 'InstantForget' 기술을 제안합니다. 마할라노비스 점수를 활용해 이상 특징을 식별하고 이를 중립적 표현으로 이동시켜 공격 성공률(ASR)을 획기적으로 낮춥니다.
핵심 포인트
- 모델 파라미터 동결 상태에서 작동하는 업데이트 불필요(update-free) 방식
- 마할라노비스 점수를 통한 이상 특징 식별 및 게이트 리셋 적용
- CIFAR-10의 다양한 공격에 대해 평균 ASR 0.071 달성
- 높은 탐지 성능(AUROC 0.981) 및 다양한 백본 모델로의 전이 가능성 확인
백도어 언러닝 (Backdoor unlearning)은 깨끗한 유용성 (clean utility)을 보존하면서 배포된 모델로부터 악의적인 트리거 (trigger) 동작을 제거하는 것을 목표로 합니다. 본 연구에서는 모델 파라미터 (model parameters)가 동결된 상태로 유지되는 업데이트가 필요 없는 추론 시점 (update-free inference-time) 설정을 연구합니다. 먼저, 오라클 (oracle)의 쌍을 이룬 깨끗한 특징 (clean features)과 트리거된 특징 (triggered features) 하에서 일반적인 투영 가정 (projection assumption)을 감사 (audit)합니다. 투영은 주로 BadNets에서 성공하며, CIFAR-10 ResNet-18에서 WaNet, Blended, SIG에 대해서는 각각 0.683, 0.888, 0.941의 공격 성공률 (ASR)을 남깁니다. 이러한 실패는 스펙트럼 압축성 (spectral compactness), 공간적 국소성 (spatial locality), 또는 서브스페이스 미정렬 (subspace misalignment)로는 설명되지 않습니다. 이는 타겟 마진 (target margin), 타겟 로짓 하락 (target-logit drop), 그리고 비타겟 로짓 상승 (non-target logit rise)을 포함하는 로짓-트리플렛 간극 (logit-triplet gap)에 의해 예측됩니다. 그런 다음, 우리는 마할라노비스 점수 (Mahalanobis score)를 통해 이상 특징 (anomalous features)을 식별하고, 식별된 특징만을 중립적인 비타겟 표현 (neutral non-target representation)으로 이동시키는 깨끗하게 보정된 게이트 리셋 (clean-calibrated gated reset) 방식인 InstantForget을 소개합니다. 별도의 트리거 샘플이나 배포 시 파라미터 업데이트 없이, 홀드아웃 (held-out) 트리거 검증 데이터에서 선택된 하나의 고정된 동작 지점 (operating point)만으로 InstantForget은 네 가지 비적응형 (non-adaptive) CIFAR-10 트리거에 대해 평균 ASR을 0.071로 감소시킵니다. 또한 0.981의 탐지 AUROC를 달성하며, 테스트된 8개의 백본 (backbone) 중 6개로 전이됩니다. WaNet, ModelNet10 포인트 블렌드 (point blend), 두 가지 백본 기하학 (backbone geometries), 그리고 적응형 특징 압축성 공격 (adaptive feature-compactness attacks) 하에서 보고된 실패 사례들은 이 방법론의 범위를 정의합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기