arXiv논문2026. 06. 12. 11:49

S-GBT: 단어 대체 공격에 대한 인증된 강건성을 위한 부드러운 성장 경계 텐서

요약

본 논문은 단어 대체 공격에 취약한 NLP 모델의 강건성을 높이기 위해 Smooth Growth Bound Tensor (S-GBT)라는 2차 방어 기법을 제안합니다. S-GBT는 Hessian을 요소별로 경계지어 곡률 변화까지 고려하여, 기존 방법보다 더 타이트하고 인증된 강건성 경계를 제공합니다.

핵심 포인트

단순한 1차 민감도 측정 대신 곡률(curvature) 기반의 2차 방어를 도입함.
S-GBT는 Hessian을 요소별로 경계지어 정교한 이론적 증명을 제시함.
학습 목표에 통합되는 정규화 항으로 인증된 강건성을 향상시킴.
LSTM 및 CNN 아키텍처에 적용 가능하며, 최대 23.4%의 정확도 향상을 보임.

자연어 처리(NLP) 분야에서 최근의 발전에도 불구하고, 모델들은 여전히 단어 대체 공격에 취약합니다. 기존 방어책 대부분은 1차 민감도에 초점을 맞추고 입력이 약간 교란되었을 때 출력이 얼마나 변하는지를 측정합니다. 하지만 이들은 이러한 민감도가 어떻게 진화하는지, 즉 곡률(curvature)에 의해 설명되는 것을 무시합니다. 기울기(gradient)가 급격하게 변할 때에도 모델은 여전히 실패할 수 있습니다. 본 논문에서는 Hessian을 요소별로 경계짓는 2차 방법인 Smooth Growth Bound Tensor (S-GBT)를 소개하며, 이에 대한 결과적인 강건성 경계에 대해 형식적인 이론적 증명을 제공합니다. 이 경계를 최소화하기 위해 학습 중에 정규화 항(regularization term)이 추가됩니다. 이를 통해 단어 대체 공격에 대한 더 타이트한 인증된 강건성을 얻을 수 있습니다. 단어 대체로 인한 출력의 변화는 선형 항과 2차 항 모두에 의해 경계지어집니다. S-GBT 방법은 Long Short-Term Memory (LSTM)와 Convolutional Neural Networks (CNN) 두 가지 아키텍처를 위해 도출되었습니다. 이 방법은 학습 목표(training objective)에 직접 통합됩니다. 그 효과는 여러 벤치마크 데이터셋에서 평가되었습니다. 결과는 1차 및 2차 정규화를 결합하는 것이 기존 방법 대비 인증된 강건 정확도를 최대 23.4%까지 향상시키며, 깨끗한(clean) 정확도는 경쟁력을 유지함을 보여줍니다. 이러한 발견은 기울기와 그 변화를 모두 제어하는 것이 더 강건한 모델을 구축하기 위한 유망한 방향임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

S-GBT: 단어 대체 공격에 대한 인증된 강건성을 위한 부드러운 성장 경계 텐서

요약

핵심 포인트

댓글