양자 오토인코어를 통한 양자 분류기의 적대적 교란 방어
요약
본 논문은 양자 분류기가 직면하는 적대적 교란(Adversarial Perturbation) 공격에 대한 새로운 방어 프레임워크를 제안합니다. 이 방법은 기존의 적대적 샘플 학습 방식의 한계를 극복하며, 양자 오토인코어(Quantum Autoencoder)를 활용하여 입력 데이터를 재구성 방식으로 정화하는 것이 핵심입니다. 또한, 정화가 불가능한 잠재적으로 악성인 샘플을 식별할 수 있는 신뢰도 지표까지 제공하여 높은 예측 정확도를 달성했습니다.
핵심 포인트
- 양자 기계 학습 모델은 적대적 공격에 취약하며, 이는 특히 변분 양자 분류기(VQC)에서 두드러집니다.
- 제안된 방어 프레임워크는 기존의 적대적 샘플 학습 방식 없이도 작동합니다.
- 핵심 메커니즘은 양자 오토인코어를 사용하여 입력 데이터를 재구성 방식으로 정화하는 것입니다.
- 이 방법은 단순히 분류만 하는 것이 아니라, 잠재적으로 적대적인 샘플을 식별할 수 있는 신뢰도 지표를 제공합니다.
기계 학습 모델은 데이터 샘플을 학습하여 다양한 작업을 효율적으로 수행할 수 있습니다. 그러나 데이터 샘플이 노이즈와 같은 신중하게 제작된 소음을 삽입하는 방식으로 적대적으로 조작될 경우, 모델이 실수를 할 수 있습니다. 양자 기계 학습 모델도 이러한 적대적 공격에 취약하며, 특히 변분 양자 분류기를 사용한 이미지 분류에서 그 취약점이 두드러집니다. 적대적 교란에 대한 유망한 방어책으로는 적대적 샘플로 학습하는 방법이 있지만, 이는 실제적인 한계를 겪습니다. 예를 들어, 적대적 샘플로 학습이 불가능하거나 특정 유형의 공격에 대해 모델이 과적합될 수 있는 시나리오에서는 적용되지 않습니다. 본 논문에서는 양자 오토인코어를 사용하여 적대적 샘플을 재구성을 통해 정화하는 적대적 학습 없이도 작동하는 방어 프레임워크를 제안합니다. 또한, 우리의 방어 프레임워크는 양자 오토인코어로 정화할 수 없는 잠재적으로 적대적인 샘플을 식별하기 위한 신뢰도 지표를 제공합니다. 광범위한 평가 결과, 우리의 방어 프레임워크는 적대적 공격 하에서 예측 정확도 (최대 68% 향상) 에서 최첨단 기법을 크게 능가함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기