arXiv논문2026. 06. 23. 12:22

가위 효과 (The Scissors Effect): 리사이즈 기반 입력 다양성 (Input Diversity)이 전이 공격 (Transfer

요약

입력 다양성(DI)이 전이 기반 적대적 공격의 성공률에 미치는 영향이 모델의 강건성 체제에 따라 상반되게 나타나는 '가위 효과(Scissors Effect)'를 규명합니다. 강건하게 훈련된 모델에서는 리사이징 기반의 DI가 오히려 공격 성공률을 낮추는 현상을 그래디언트 기하학 관점에서 분석합니다.

핵심 포인트

입력 다양성(DI)은 표준 모델의 전이성은 높이지만, 강건한 모델의 전이성은 낮춤
가위 효과는 리사이징 연산에 의해 발생하는 그래디언트 정렬의 차이에서 기인
LGC(Local Gradient Consistency)를 통해 DI의 유익함과 해로움을 구분 가능
CG-DI 규칙을 통해 강건한 모델에서의 손실을 방지하며 DI의 이점 유지 가능

각 공격 반복 시 무작위 리사이징 (Resizing) 및 패딩 (Padding)을 적용하는 입력 다양성 (Input Diversity, DI)은 전이 기반 적대적 공격 (Transfer-based adversarial attacks)의 거의 기본이 되는 요소이며, 전이성 (Transferability)을 향상시킨다고 널리 가정되어 왔습니다. 우리는 이 가정이 체제 (Regime)에 따라 달라지며, 강건하게 훈련된 대리 모델 (Robustly trained surrogates)의 경우 종종 반대로 나타난다는 것을 보여줍니다. 대리 모델만을 변경했을 때, DI 확률을 높이는 것은 표준 대리 모델 (Standard surrogates)의 전이 성공률은 높이지만 강건한 대리 모델 (Robust surrogates)의 성공률은 낮춥니다. 이 두 응답 곡선은 마치 가위 한 쌍처럼 갈라지는데, 우리는 이 패턴을 가위 효과 (Scissors Effect)라고 부릅니다. 이 효과는 ImageNet에서 강력하고 일관되게 나타나며, 여기서 맹목적인 DI는 2018년부터 2024년까지의 10가지 공격과 CNN, ViT, Swin, ConvNeXt 타겟 전반에 걸쳐 강건한 소스 모델의 공격 성공률을 평균 10.3% 감소시킵니다. CIFAR-10에서는 DI를 공격적으로 설정하지 않는 한 그 효과가 더 작습니다. 훈련 예산 (Training budget)만을 변화시키는 통제된 강건성-강도 스윕 (Robustness-strength sweep)을 통해 확인한 결과, 이러한 해악은 이진적(Binary)이기보다는 단계적(Graded)이며, 낮은 강건성 체제 (Little-robustness regime)에서 이미 유익함에서 해로움으로 교차함을 보여줍니다. 우리는 이를 그래디언트 기하학 (Gradient geometry)의 관점에서 추적합니다. 리사이즈/변환 (Resize/translation) 분해 결과, 해악의 약 67%가 리사이즈 (Resize)에 기인하는 것으로 나타났으며, 직접적인 소스-타겟 그래디언트 정렬 (Source-target gradient-alignment) 측정 또한 동일한 리사이즈 연산이 표준 대리 모델의 정렬은 개선하지만 강건한 대리 모델의 정렬은 저하시킨다는 것을 확인해 줍니다. 우리는 두 대리 모델 유형을 구분하는 단일 입력 공간 프로브 (Input-space probe)인 국소 그래디언트 일관성 (Local Gradient Consistency, LGC)으로 이 체제를 요약하며, DI가 도움이 되는 지점과 리사이즈 편향 (Resize bias)이 지배하는 지점을 분리하는 편향-분산 교차 정리 (Bias-variance crossover theorem)를 증명합니다. LGC가 높을 때 다양성을 비활성화하는 훈련이 필요 없는 규칙 (CG-DI)은 표준 모델에서의 DI 이점은 유지하면서 강건한 대리 모델에서의 손실은 방지하며, 이를 통해 가위 효과를 더 넓은 강건성-전이성 트레이드오프 (Robustness-transferability trade-off)의 DI 특화된 발현으로 규정합니다.

AI 자동 생성 콘텐츠

원문 바로가기

가위 효과 (The Scissors Effect): 리사이즈 기반 입력 다양성 (Input Diversity)이 전이 공격 (Transfer

요약

핵심 포인트

댓글