arXiv논문2026. 06. 17. 11:32

네이티브 성공을 넘어: CLIP 백도어의 배포 인터페이스 노출 감사

요약

CLIP 모델의 백도어 공격이 다양한 다운스트림 인터페이스로 재사용될 때의 노출 정도를 분석하는 DIFE 프레임워크를 제안합니다. 연구 결과, 텍스트 인코더가 백도어의 주요 운반체 역할을 하며, 이를 보완하기 위한 BadTextTower 공격 기법을 소개합니다.

핵심 포인트

DIFE 프레임워크를 통한 CLIP 백도어의 배포 인터페이스 노출 감사
네이티브 성공률이 체크포인트 전체의 보안성을 보장하지 않음
텍스트 인코더가 적대적 동작의 핵심적인 재사용 운반체로 식별됨
시각 전용 재사용은 안전하지만 텍스트 조건부 작업은 취약함
새로운 공격 모델인 BadTextTower 제안

대조적 언어-이미지 사전 학습 (Contrastive Language-Image Pre-training, CLIP) 모델은 특징 추출 (feature extraction), 검색 (retrieval), 재순위화 (reranking), 선택 (selection)을 포함한 다양한 다운스트림 인터페이스에서 널리 재사용됩니다. 그러나 기존의 CLIP 백도어는 대개 작은 공격-네이티브 (attack-native) 태스크에서 공격을 검증하며, 동일한 오염된 체크포인트가 다른 인터페이스를 통해 재사용될 때 노출 상태를 유지하는지, 약화되는지, 혹은 적용 불가능해지는지는 불분명하게 남겨둡니다. 우리는 배포 인터페이스 전반에 걸쳐 백도어가 심어진 CLIP 체크포인트를 감사하는 배포-인터페이스 발자국 평가 (Deployment-Interface Footprint Evaluation, DIFE) 프레임워크를 소개합니다. DIFE는 각 인터페이스의 구성 요소 판독 (component readout), 트리거 채널 (trigger channel), 대상 이벤트 (target event), 참조 조건 (reference condition), 그리고 지표 (metric)를 지정함으로써 다양한 평가를 비교 가능하게 만듭니다. 또한 DIFE는 노출을 유발하는 재사용 가능한 CLIP 구성 요소 또는 구성 요소 조합을 식별하고 위험이 어디로 전이되는지 설명하는 효과적 발자국 진단 (effective-footprint diagnosis)을 도입합니다. DIFE를 통해 재현된 CLIP 백도어를 감사한 결과, 구조화된 양상이 드러났습니다: 네이티브 성공 (native success)은 체크포인트 수준의 위험 인증서가 아니며, 노출은 구성 요소의 발자국 (component footprints)을 따르고, 텍스트 측면의 오염 (text-side poisoning)은 텍스트 인코더 (textual-encoder) 제어로 이어지지 않으며, 일부 결합된 공격은 메커니즘에 종속된 상태로 남아 있습니다. 이 감사는 기존 CLIP 백도어에서 중요한 격차를 발견했습니다: 그 자체로 적대적 동작의 재사용 가능한 운반체가 되는 텍스트 인코더입니다. 따라서 우리는 이 격차를 메우기 위해 BadTextTower를 소개합니다. BadTextTower는 시각 전용 (visual-only) 재사용은 거의 깨끗하게 유지하면서도, 강력한 텍스트 조건부 검색, 재순위화 및 선택 노출을 생성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

네이티브 성공을 넘어: CLIP 백도어의 배포 인터페이스 노출 감사

요약

핵심 포인트

댓글