스펙트럼 회귀 분석을 통한 Trojan이 삽입된 DNN 탐지
요약
본 논문은 미세 조정(Fine-tuning) 과정에서 삽입될 수 있는 Trojan(트로이 목마) 공격을 탐지하기 위한 새로운 프레임워크인 MIST를 제안합니다. MIST는 트리거를 직접 찾는 대신 활성화 전 스펙트럼(Pre-activation spectra)의 변화를 분석하여, 정상적인 모델의 진화 경로에서 벗어나는 업데이트를 회귀 분석을 통해 식별합니다.
핵심 포인트
- MIST는 오염된 데이터나 특정 트리거에 대한 사전 지식 없이도 Trojan을 탐지할 수 있습니다.
- 활성화 전 스펙트럼(Pre-activation spectra)의 편차를 활용하여 모델 업데이트를 회귀 문제로 접근합니다.
- 단 한 번의 업데이트만으로도 기존 최첨단(SOTA) 탐지 기술을 능가하는 정확도를 보여줍니다.
- 다단계 미세 조정 과정에서도 성능 저하가 완만하며 안정적인 탐지 성능을 유지합니다.
현대의 DNN (Deep Neural Networks)은 새로운 데이터와 기능을 통합하기 위해 반복적으로 미세 조정 (Fine-tuning)됩니다. 이러한 진화적 워크플로우는 업데이트된 데이터를 완전히 신뢰할 수 없을 때 보안 위험을 초래하는데, 공격자가 미세 조정 과정에서 Trojan (트로이 목마)을 심을 수 있기 때문입니다. 본 논문에서는 모델의 내부 표현 (Internal representations)이 미세 조정 중에 어떻게 변화하는지를 분석하는 Trojan 탐지 접근 방식인 MIST를 제시합니다. MIST는 트리거 (Trigger) 조건을 재구성하려고 시도하는 대신, 활성화 전 스펙트럼 (Pre-activation spectra)을 사용하여 정상적인 모델의 진화를 특징짓고, 이 참조 모델과 스펙트럼 편차가 일치하지 않는 업데이트를 식별합니다. 이러한 프레임워크는 Trojan 탐지를 모델 업데이트에 대한 회귀 (Regression) 문제로 취급합니다. 4개의 데이터셋과 8개의 Trojan 공격에 대한 실증적 평가 결과, 스펙트럼 거리 (Spectral distances)가 Trojan이 삽입된 업데이트를 깨끗한 미세 조정과 안정적으로 구별함을 보여줍니다. MIST는 오염된 데이터나 트리거에 대한 어떠한 지식도 필요로 하지 않으며, 단 한 번의 업데이트만으로도 최첨단 (State-of-the-art) 탐지 정확도를 능가합니다. 또한 다단계의 정상적인 진화 과정에서도 성능 저하가 완만하고 제한적인 범위 내에서 유지되며 효과적으로 작동합니다. 이러한 결과는 스펙트럼 진화가 악의적인 모델 업데이트를 탐지하기 위한 안정적이고 가정이 적은 (Assumption-light) 신호를 제공함을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기