본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 10:51

새로운 잠재 클래스 공격(Latent-Class Attack)과 클래스 부공간 직교화(Class Subspace

요약

딥러닝 모델의 데이터 오염 공격에 대한 새로운 유형인 '잠재 클래스 공격(Latent-Class Attack)'을 제안합니다. 알려지지 않은 새로운 클래스를 타겟 클래스의 하위 클래스로 오인하게 만들어 모델을 무력화하는 공격 방식입니다.

핵심 포인트

  • 새로운 데이터 오염 공격 방식인 잠재 클래스 공격 제안
  • 알려지지 않은 클래스를 타겟 클래스의 하위 클래스로 인식하게 유도
  • AI 기반 출입 통제 시스템 등 보안 시스템 무력화 가능성 제시

일반적으로 방대한 양의 학습 데이터에 의존하는 딥러닝 (Deep learning)은 오류 일반 공격 (error-generic attacks) 및 백도어 (backdoors, Trojans)를 포함한 데이터 오염 공격 (data poisoning attacks)에 취약합니다. 본 연구에서는 우리가 잠재 클래스 공격 (latent class attack)이라 명명한 새로운 데이터 오염 공격을 제안합니다. 여기서 모든 오염된 예시들은 주어진 분류 도메인(classification domain)에 대해 새롭고(알려지지 않은) 클래스에서 추출되었으며, 도메인의 알려진 클래스 중 하나(타겟 클래스)로 잘못 레이블링되어 모델이 해당 새로운 클래스를 타겟 클래스의 하위 클래스로 인식하도록 학습하게 됩니다. 이러한 공격은 예를 들어 AI 기반 출입 통제 시스템을 무력화하거나,

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0