arXiv논문2026. 06. 30. 10:51

새로운 잠재 클래스 공격(Latent-Class Attack)과 클래스 부공간 직교화(Class Subspace

요약

딥러닝 모델의 데이터 오염 공격에 대한 새로운 유형인 '잠재 클래스 공격(Latent-Class Attack)'을 제안합니다. 알려지지 않은 새로운 클래스를 타겟 클래스의 하위 클래스로 오인하게 만들어 모델을 무력화하는 공격 방식입니다.

핵심 포인트

새로운 데이터 오염 공격 방식인 잠재 클래스 공격 제안
알려지지 않은 클래스를 타겟 클래스의 하위 클래스로 인식하게 유도
AI 기반 출입 통제 시스템 등 보안 시스템 무력화 가능성 제시

일반적으로 방대한 양의 학습 데이터에 의존하는 딥러닝 (Deep learning)은 오류 일반 공격 (error-generic attacks) 및 백도어 (backdoors, Trojans)를 포함한 데이터 오염 공격 (data poisoning attacks)에 취약합니다. 본 연구에서는 우리가 잠재 클래스 공격 (latent class attack)이라 명명한 새로운 데이터 오염 공격을 제안합니다. 여기서 모든 오염된 예시들은 주어진 분류 도메인(classification domain)에 대해 새롭고(알려지지 않은) 클래스에서 추출되었으며, 도메인의 알려진 클래스 중 하나(타겟 클래스)로 잘못 레이블링되어 모델이 해당 새로운 클래스를 타겟 클래스의 하위 클래스로 인식하도록 학습하게 됩니다. 이러한 공격은 예를 들어 AI 기반 출입 통제 시스템을 무력화하거나,

AI 자동 생성 콘텐츠

원문 바로가기

새로운 잠재 클래스 공격(Latent-Class Attack)과 클래스 부공간 직교화(Class Subspace

요약

핵심 포인트

댓글