훈련이 필요 없는 개념 국지화(Concept Localization)를 통한 타이포그래피 공격(Typographic Attack)에 대한

Contrastive Language-Image Pretraining (CLIP)을 통해 훈련된 모델들은 대부분의 현대적인 대규모 시각-언어 모델 (Large Vision Language Models, LVLMs)을 위한 기초적인 비전 인코더 (vision encoders) 역할을 합니다. 이러한 광범위한 채택에도 불구하고, CLIP 모델은 중요하지만 아직 충분히 연구되지 않은 실패 모드(failure mode)를 보입니다. 즉, 이미지 내에 나타나는 무관한 텍스트가 시각적 표현 (visual representations)을 혼란스럽게 하여, 실제 시각적 의미론 (visual semantics)보다는 어휘적 의미 (lexical meaning)로 편향되게 만듭니다. 일반적으로 타이포그래피 공격 (Typographic Attack, TA)이라고 설명되는 이러한 강건성 문제는 자율 주행과 같은 안전 필수 애플리케이션에 상당한 위험을 초래하는 취약성을 드러냅니다. TA에 대해 해석 가능하고 효과적인 강건성을 달성하기 위해, 우리는 새로운 훈련이 필요 없는 (training-free) 기계론적 해석 가능성 (mechanistic interpretability) 방법을 제안합니다. 우리의 방법은 은닉 상태 표현 (hidden state representations)에 대한 샘플링 기반 해석을 제공하며, 개별 어텐션 헤드 (attention heads)에 대해 의미론적 초점과 어휘적 초점을 정량적으로 귀속시킵니다. 확률적 분석과 회로 마이닝 (circuit mining)을 통해, 우리는 어휘 정보를 불균형적으로 인코딩하는 특정 비전 트랜스포머 (Vision Transformer, ViT) 구성 요소를 격리함으로써 TA의 기계론적 근원을 식별합니다. 나아가 우리는 추가적인 훈련 없이 식별된 회로에 직접 적용되는 간단한 개입 (interventions)만으로도 객체 분류 (object classification)에서 타이포그래피 공격에 대한 강건성을 실질적으로 향상시킬 수 있음을 보여줍니다. 어텐션 가중치 (attention weights)의 선택적 조정과 같은 이러한 개입은 지도 학습 (supervised) 및 훈련이 필요 없는 방어 방법 모두보다 뛰어난 성능을 보입니다. 우리의 실험은 제안된 개입을 여러 최첨단 (state-of-the-art) LVLMs의 비전 인코더에 적용했을 때, RIO-Bench의 타이포그래피 공격 간섭 하에서 시각적 질의응답 (Visual Question Answering) 정확도가 실질적으로 향상됨을 입증합니다. 이러한 결과는 우리의 기계론적 접근 방식의 효능과 일반화 가능성을 모두 확인시켜 줍니다. 코드는 https://github.com/Liu-524/SamplingTAR 에서 공개되었습니다.

Insights

훈련이 필요 없는 개념 국지화(Concept Localization)를 통한 타이포그래피 공격(Typographic Attack)에 대한

요약

핵심 포인트

댓글

GAP-GDRNet: 단일 대상 합성 우주선 데이터셋에서의 기하학 인지 단안 시각 포즈 센싱

SelectTSL: 복잡한 시나리오에서의 프롬프트 유도 선택적 타겟 음원 위치 추적

컴파일러의 최적화 누락에 대한 에이전트 기반 패칭(Patching) 이해

VisionAId: 개인화된 객체 검색 기능을 갖춘 시각 장애인을 위한 오프라인 우선 멀티모달 Android 어시스턴트

SelectTSL: 복잡한 시나리오에서의 프롬프트 유도 선택적 타겟 음원 위치 추적

컴파일러의 최적화 누락에 대한 에이전트 기반 패칭(Patching) 이해

VisionAId: 개인화된 객체 검색 기능을 갖춘 시각 장애인을 위한 오프라인 우선 멀티모달 Android 어시스턴트