새로운 잠재 클래스 공격(Latent-Class Attack)과 클래스 부공간 직교화(Class Subspace
요약
딥러닝 모델의 데이터 오염 공격에 대한 새로운 유형인 '잠재 클래스 공격(Latent-Class Attack)'을 제안합니다. 알려지지 않은 새로운 클래스를 타겟 클래스의 하위 클래스로 오인하게 만들어 모델을 무력화하는 공격 방식입니다.
핵심 포인트
- 새로운 데이터 오염 공격 방식인 잠재 클래스 공격 제안
- 알려지지 않은 클래스를 타겟 클래스의 하위 클래스로 인식하게 유도
- AI 기반 출입 통제 시스템 등 보안 시스템 무력화 가능성 제시
일반적으로 방대한 양의 학습 데이터에 의존하는 딥러닝 (Deep learning)은 오류 일반 공격 (error-generic attacks) 및 백도어 (backdoors, Trojans)를 포함한 데이터 오염 공격 (data poisoning attacks)에 취약합니다. 본 연구에서는 우리가 잠재 클래스 공격 (latent class attack)이라 명명한 새로운 데이터 오염 공격을 제안합니다. 여기서 모든 오염된 예시들은 주어진 분류 도메인(classification domain)에 대해 새롭고(알려지지 않은) 클래스에서 추출되었으며, 도메인의 알려진 클래스 중 하나(타겟 클래스)로 잘못 레이블링되어 모델이 해당 새로운 클래스를 타겟 클래스의 하위 클래스로 인식하도록 학습하게 됩니다. 이러한 공격은 예를 들어 AI 기반 출입 통제 시스템을 무력화하거나,
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기