적대적 증류 (Adversarial Distillation)를 통한 인증된 강건성 (Certified Robustness) 향상
요약
적대적 증류(Adversarial Distillation)와 IBP 상한을 결합한 새로운 인증된 학습 목적 함수인 AD-CERT를 제안합니다. 이 방식은 교사 모델의 로짓 정보를 활용해 인증된 학습의 하한 대리물을 효과적으로 제공하며, 기존 방식보다 높은 표준-인증 정확도 트레이드오프를 달성합니다.
핵심 포인트
- AD-CERT를 통한 최첨단(SOTA) 인증 성능 달성
- 로짓 공간에서의 적대적 정보 증류가 인증 정확도 향상에 효과적
- 기존 특징 공간 증류 대비 인증 정확도 최대 5.40%p 개선
- 표준 정확도와 인증된 강건성 사이의 트레이드오프 최적화
인증된 학습 (Certified training)은 일반적으로 허용된 섭동 집합 (perturbation set)에 대한 최악의 손실 (worst-case loss)의 상한 (upper bounds)을 최적화함으로써, 적대적 섭동 (adversarial perturbations)에 대해 예측을 공식적으로 검증할 수 있는 모델을 생성하는 것을 목표로 합니다. 신경망 (neural networks)의 경우, 순수하게 타이트한 완화 경계 (tight relaxation bounds)에 기반한 인증된 학습 방법은 인증에 용이한 네트워크를 생성하지만, 표준 정확도 (standard accuracy)를 희생합니다. 반대로, 적대적 학습 (adversarial training)은 종종 더 강력한 경험적 강건성 (empirical robustness)과 표준 정확도를 제공하지만, 결과로 생성된 모델은 일반적으로 신경망 검증기 (neural network verifiers)로 인증하기 어렵습니다. 최근 문헌에 따르면, 적대적 학습 목적 함수를 구간 경계 전파 (Interval Bound Propagation, IBP)에 기반한 느슨한 과잉 근사 (loose over-approximations)와 결합함으로써 더 나은 표준-인증 정확도 트레이드오프 (standard-certified accuracy trade-offs)를 달랄 수 있음이 밝혀졌으며, 이는 최악의 손실의 하한 (lower bounds)과 상한 (upper bounds) 사이를 효과적으로 보간 (interpolating)하는 방식입니다. 이를 바탕으로, 우리는 적대적 증류 (adversarial distillation)와 IBP 상한을 결합한 인증된 학습 목적 함수인 AD-CERT를 소개합니다. 우리는 경험적으로 강건한 교사 모델 (teacher)로부터 로짓 공간 (logit space)에서 적대적 정보를 증류하는 것이 인증된 학습을 위한 효과적인 하한 대리물 (lower bound surrogate)을 제공함을 보여주며, AD-CERT는 여러 강건성 벤치마크에서 최첨단 (state-of-the-art) 인증 성능을 달성합니다. 또한, 통합된 설정에서 로짓 레벨 (logit-level)에서 적대적 정보를 증류하는 것이 강건한 특징 공간 증류 (robust feature-space distillation) 목적 함수보다 인증된 정확도를 최대 5.40 퍼센트 포인트까지 향상시킨다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기