적대적 증류 (Adversarial Distillation)를 통한 인증된 강건성 (Certified Robustness) 향상

인증된 학습 (Certified training)은 일반적으로 허용된 섭동 집합 (perturbation set)에 대한 최악의 손실 (worst-case loss)의 상한 (upper bounds)을 최적화함으로써, 적대적 섭동 (adversarial perturbations)에 대해 예측을 공식적으로 검증할 수 있는 모델을 생성하는 것을 목표로 합니다. 신경망 (neural networks)의 경우, 순수하게 타이트한 완화 경계 (tight relaxation bounds)에 기반한 인증된 학습 방법은 인증에 용이한 네트워크를 생성하지만, 표준 정확도 (standard accuracy)를 희생합니다. 반대로, 적대적 학습 (adversarial training)은 종종 더 강력한 경험적 강건성 (empirical robustness)과 표준 정확도를 제공하지만, 결과로 생성된 모델은 일반적으로 신경망 검증기 (neural network verifiers)로 인증하기 어렵습니다. 최근 문헌에 따르면, 적대적 학습 목적 함수를 구간 경계 전파 (Interval Bound Propagation, IBP)에 기반한 느슨한 과잉 근사 (loose over-approximations)와 결합함으로써 더 나은 표준-인증 정확도 트레이드오프 (standard-certified accuracy trade-offs)를 달랄 수 있음이 밝혀졌으며, 이는 최악의 손실의 하한 (lower bounds)과 상한 (upper bounds) 사이를 효과적으로 보간 (interpolating)하는 방식입니다. 이를 바탕으로, 우리는 적대적 증류 (adversarial distillation)와 IBP 상한을 결합한 인증된 학습 목적 함수인 AD-CERT를 소개합니다. 우리는 경험적으로 강건한 교사 모델 (teacher)로부터 로짓 공간 (logit space)에서 적대적 정보를 증류하는 것이 인증된 학습을 위한 효과적인 하한 대리물 (lower bound surrogate)을 제공함을 보여주며, AD-CERT는 여러 강건성 벤치마크에서 최첨단 (state-of-the-art) 인증 성능을 달성합니다. 또한, 통합된 설정에서 로짓 레벨 (logit-level)에서 적대적 정보를 증류하는 것이 강건한 특징 공간 증류 (robust feature-space distillation) 목적 함수보다 인증된 정확도를 최대 5.40 퍼센트 포인트까지 향상시킨다는 것을 보여줍니다.

Insights

적대적 증류 (Adversarial Distillation)를 통한 인증된 강건성 (Certified Robustness) 향상

요약

핵심 포인트

댓글

표 형식 인컨텍스트 학습 (Tabular In-Context Learning)의 암기 현상 조사

대규모 언어 모델을 이용한 문체적 도용 조사: EU 법률에 따른 저작권 침해 평가 프레임워크

데이터베이스가 실패할 때: 작업 지향 대화(Task-Oriented Dialogue)에서 안전한 복구를 위한 LLM 대화 에이전트 프롬프팅

LLM은 이분법적 딜레마를 넘어 도덕적 대안을 상상할 수 있는가?

대규모 언어 모델을 이용한 문체적 도용 조사: EU 법률에 따른 저작권 침해 평가 프레임워크

데이터베이스가 실패할 때: 작업 지향 대화(Task-Oriented Dialogue)에서 안전한 복구를 위한 LLM 대화 에이전트 프롬프팅

LLM은 이분법적 딜레마를 넘어 도덕적 대안을 상상할 수 있는가?