arXiv논문2026. 06. 18. 12:32

의미론적 적대적 공격의 일반화된 고유값 기하학

요약

금융 감성 분류기를 대상으로 하는 의미론적 패러프레이즈 공격의 취약성을 수학적으로 분석한 연구입니다. 자코비안 행렬을 활용한 일반화된 고유값 기하학을 통해 공격 가능성을 정량화하고, 이를 방어하기 위한 이론적 인증 및 마진 바운드를 제안합니다.

핵심 포인트

패러프레이즈를 통한 금융 감성 분류기의 예측 반전 메커니즘 규명
자코비안 행렬 펜슬을 이용한 공격 가능성 지수(attackability index) 도출
연속적 이론과 이산적 패러프레이즈 탐색 간의 커버링 조건 제시
공격 가능성을 고려한 조정 마진(attackability-adjusted margin) 제안

최근의 실증적 연구에 따르면, 의미론적으로 동일한 패러프레이즈(paraphrase, 의역)가 금융 감성 분류기(financial sentiment classifiers)를 속일 수 있음이 밝혀졌습니다. 강력한 참조 임베딩(reference embedding) 하에서 패러프레이즈가 원문과 가깝게 유지되더라도, 대상 모델의 표현(representation)을 예측 클래스가 바뀔 만큼 충분히 이동시킬 수 있기 때문입니다. 기존의 강건성(robustness) 이론은 단일 모델 위협 모델을 가정하거나 주로 실증적인 공격 알고리즘에 초점을 맞춥니다. 우리는 이러한 이중 모델 구조를 포착하는 의미론적 패러프레이즈 섭동(perturbation)의 연속적 국소 모델(continuous local model)을 개발합니다. 우리는 프록시 모델 예산(proxy-model budget)이 주어졌을 때, 대상 표현의 최악의 경우 국소 변위(worst-case local displacement)가 두 임베딩 맵의 자코비안(Jacobians)으로부터 구성된 행렬 펜슬(matrix pencil) $(A, B)$의 가장 큰 일반화된 고유값(generalised eigenvalue)에 의해 결정됨을 보여줍니다. 결과적으로 도출된 공격 가능성 지수(attackability index) $\lambda^*(x)$는 국소 패러프레이즈 기하학 및 선택된 임베더(embedders)에 내재적이며, 아핀 판독기(affine readouts)에 대한 폐쇄형 예측 반전 조건(closed-form prediction-flip condition)을 제공하고, 보수적인 모집단 및 유한 샘플 공격 가능성 인증(attackability certificates)을 지원합니다. 아핀 판독기 클래스에 대한 균일한 제어를 위해, 우리는 이진 공격 가능성 지표에 대한 분포 무관 VC 바운드(distribution-free VC bound)와, 표준 분류기 마진에서 국소 기하학적 패널티를 차감하는 공격 가능성 조정 마진(attackability-adjusted margin)에 기반한 스케일 민감형 마진 바운드(scale-sensitive margin bound)를 도출합니다. 또한 우리는 연속적 이론을 이산적 패러프레이즈 탐색(discrete paraphrase search)과 연결하고, 성공적인 유한 탐색과 실패한 유한 탐색 사이의 비대칭성을 식별하며, 이산적 설정과 연속적 설정이 일치하는 커버링 조건(covering condition)을 제시합니다. 마지막으로, 우리는 배포된 금융 텍스트 분류기에서 국소 고유값 기하학, 예측 반전 조건, 그리고 유한 탐색 근사를 평가하기 위해 소프트 토큰 완화(soft-token relaxations) 및 생성된 패러프레이즈 세트를 사용하는 실증적 검증 프레임워크를 제안합니다.

AI 자동 생성 콘텐츠

원문 바로가기

의미론적 적대적 공격의 일반화된 고유값 기하학

요약

핵심 포인트

댓글