음성 명령 분류 시스템에 대한 포이즈닝 공격 방어를 위한 비지도 표현 클러스터링 (Clustering Unsupervised
요약
음성 명령 분류 시스템을 대상으로 하는 더티 레이블 포이즈닝 공격을 방어하기 위한 새로운 비지도 표현 클러스터링 기법을 제안합니다. DINO를 활용해 비지도 표현을 학습한 뒤 K-means와 LDA로 클러스터링하여 오염된 데이터를 필터링합니다.
핵심 포인트
- 더티 레이블 포이즈닝 공격 시나리오 대응
- DINO를 이용한 비지도 표현 학습 및 클러스터링 활용
- 클러스터 내 다수결 원칙을 통한 오염 데이터 필터링
- 공격 성공률을 99.75%에서 0.25%로 대폭 감소시킴
포이즈닝 공격 (Poisoning attacks)은 공격자가 의도적으로 학습 데이터를 조작하는 것을 수반합니다. 본 논문에서는 음성 명령 분류 시스템 (speech commands classification system)에 대한 더티 레이블 (dirty-label) 포이즈닝 공격 시나리오를 고려합니다. 위협 모델 (threat model)은 특정 클래스 중 하나의 발화 (utterances) (소스 클래스, source class)에 트리거 (trigger)를 중첩시켜 오염시키고, 해당 레이블을 공격자가 선택한 다른 클래스 (타겟 클래스, target class)로 변경한다고 가정합니다. 우리는 이러한 공격에 대한 필터링 방어 (filtering defense)를 제안합니다. 먼저, 레이블이 없는 증류 (DIstillation with NO labels, DINO)를 사용하여 모든 학습 예제에 대한 비지도 표현 (unsupervised representations)을 학습합니다. 다음으로, K-means와 LDA를 사용하여 이러한 표현들을 클러스터링 (cluster)합니다. 마지막으로, 클러스터 내에서 가장 반복적으로 나타나는 레이블을 가진 발화들만 학습을 위해 유지하고 나머지는 폐기합니다. 10%의 소스 클래스가 오염된 경우, 공격 성공률 (attack success rate)이 99.75%에서 0.25%로 감소함을 입증합니다. 우리는 다양한 타겟 및 소스 클래스, 그리고 트리거 변형을 포함한 다양한 위협 모델에 대해 우리의 방어 기제를 테스트합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기