arXiv논문2026. 05. 01. 15:44

양자 오토인코어를 통한 양자 분류기의 적대적 교란 방어

요약

본 논문은 양자 분류기가 직면하는 적대적 교란(Adversarial Perturbation) 공격에 대한 새로운 방어 프레임워크를 제안합니다. 이 방법은 기존의 적대적 샘플 학습 방식의 한계를 극복하며, 양자 오토인코어(Quantum Autoencoder)를 활용하여 입력 데이터를 재구성 방식으로 정화하는 것이 핵심입니다. 또한, 정화가 불가능한 잠재적으로 악성인 샘플을 식별할 수 있는 신뢰도 지표까지 제공하여 높은 예측 정확도를 달성했습니다.

핵심 포인트

양자 기계 학습 모델은 적대적 공격에 취약하며, 이는 특히 변분 양자 분류기(VQC)에서 두드러집니다.
제안된 방어 프레임워크는 기존의 적대적 샘플 학습 방식 없이도 작동합니다.
핵심 메커니즘은 양자 오토인코어를 사용하여 입력 데이터를 재구성 방식으로 정화하는 것입니다.
이 방법은 단순히 분류만 하는 것이 아니라, 잠재적으로 적대적인 샘플을 식별할 수 있는 신뢰도 지표를 제공합니다.

기계 학습 모델은 데이터 샘플을 학습하여 다양한 작업을 효율적으로 수행할 수 있습니다. 그러나 데이터 샘플이 노이즈와 같은 신중하게 제작된 소음을 삽입하는 방식으로 적대적으로 조작될 경우, 모델이 실수를 할 수 있습니다. 양자 기계 학습 모델도 이러한 적대적 공격에 취약하며, 특히 변분 양자 분류기를 사용한 이미지 분류에서 그 취약점이 두드러집니다. 적대적 교란에 대한 유망한 방어책으로는 적대적 샘플로 학습하는 방법이 있지만, 이는 실제적인 한계를 겪습니다. 예를 들어, 적대적 샘플로 학습이 불가능하거나 특정 유형의 공격에 대해 모델이 과적합될 수 있는 시나리오에서는 적용되지 않습니다. 본 논문에서는 양자 오토인코어를 사용하여 적대적 샘플을 재구성을 통해 정화하는 적대적 학습 없이도 작동하는 방어 프레임워크를 제안합니다. 또한, 우리의 방어 프레임워크는 양자 오토인코어로 정화할 수 없는 잠재적으로 적대적인 샘플을 식별하기 위한 신뢰도 지표를 제공합니다. 광범위한 평가 결과, 우리의 방어 프레임워크는 적대적 공격 하에서 예측 정확도 (최대 68% 향상) 에서 최첨단 기법을 크게 능가함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

양자 오토인코어를 통한 양자 분류기의 적대적 교란 방어

요약

핵심 포인트

댓글