arXiv논문2026. 06. 26. 10:42

진화 알고리즘 생성 적대적 텍스트에 대한 자연어 분류기의 취약성

요약

자연어 분류기의 취약성을 공격하기 위한 하이브리드 유전 알고리즘인 GAversary를 제안합니다. GloVe 임베딩을 활용해 의미론적 유사성을 유지하면서도 모델의 정확도를 크게 낮추는 적대적 텍스트 생성 방식을 다룹니다.

핵심 포인트

블랙박스 모델의 로짓 값만으로 작동하는 GAversary 제안
GloVe 임베딩을 활용한 정밀한 단어 교체 변이 연산 수행
기존 BAE, A2T 공격 대비 모델 정확도를 대폭 감소시킴
의미론적 유사성과 공격 효율성 사이의 트레이드오프 존재

딥러닝 (Deep learning) 모델은 다양한 분야에서 인상적인 성능을 달성했지만, 적대적 입력 (adversarial inputs)에는 여전히 취약하며, 특히 NLP 분야에서는 이러한 공격이 실세계에서 상당한 결과를 초래할 수 있습니다. 적대적 공격 (Adversarial attacks)은 종종 NLP 모델을 속이기 위해 의미론적으로 유사한 작은 토큰 교체 (token replacements)를 포함하며, 최근의 방법들은 모델의 내부 구조에 대한 일정 수준의 접근 권한을 활용하여 특정 취약 단어를 타겟팅함으로써 더욱 정밀해졌습니다. 본 논문은 자연어 모델에 대한 적대적 공격을 생성하기 위한 하이브리드 유전 알고리즘 (Genetic Algorithm, GA)인 GAversary를 제안합니다. 이 GA는 대상 모델을 블랙박스 (black box)로 취급할 수 있으며, 탐색을 가이드하기 위해 모델이 출력하는 로짓 값 (logit value)만을 필요로 합니다. GAversary는 적대적 예시 (adversarial examples)의 의미론적 유사성 (semantic similarity)을 향상시키기 위해 GloVe 임베딩 (embeddings)을 사용하여 단어 교체 (변이 연산자, mutation operator)를 제안한다는 점에서 이 문제를 위해 이전에 제안된 GA들과 차별화됩니다. GAversary는 여러 벤치마크 데이터 세트와 잘 알려진 대상 모델들에 적용되었습니다. GAversary는 비교 대상인 BAE 및 A2T 공격에 비해 테스트 데이터에서 대상 모델의 정확도를 실질적으로 감소시킬 수 있습니다 (최선의 경우, BAE의 27.6%와 비교하여 76.8%의 정확도를 5.8%로 감소시킴). 트레이드오프 (trade-off)는 GAversary가 다른 두 방법보다 약 두 배 가까이 많은 단어를 섭동 (perturb)시키며, 원문과의 의미론적 유사성이 약간 더 낮고 실행 시간 (run-time)이 약 5% 증가한다는 점입니다.

AI 자동 생성 콘텐츠

원문 바로가기

진화 알고리즘 생성 적대적 텍스트에 대한 자연어 분류기의 취약성

요약

핵심 포인트

댓글