arXiv논문2026. 05. 05. 06:37

시각 언어 모델 (VLM) 을 통한 시각 모달리티를 이용한 제일브레이킹 공격

요약

본 논문은 시각 언어 모델(VLM)의 시각 모달리티를 활용하여 기존의 안전 정렬(Safety Alignment)을 우회하는 네 가지 새로운 '제일브레이킹 공격' 기법을 제시합니다. 이 공격들은 해로운 지시를 시각적 기호로 인코딩하거나, 위험한 물체를 무해한 대체품으로 교체하고, 이미지 내 텍스트를 수정하는 등 다양한 방식으로 이루어집니다. 실험 결과, 이러한 시각 기반 공격은 텍스트 기반 안전 훈련만으로는 포착하기 어려운 취약점을 드러냈으며, VLM의 견고한 정렬을 위해서는 시각적 측면을 필수적으로 고려해야 함을 강조합니다.

핵심 포인트

VLM의 시각 모달리티는 아직 충분히 탐구되지 않은 공격 표면(Attack Surface)이다.
제시된 4가지 공격 기법은 해로운 지시를 시각적 형태로 변환하거나, 물체/텍스트를 대체하여 안전 필터를 우회한다.
시각 기반 공격은 텍스트 기반의 안전 정렬만으로는 방어할 수 없는 취약점을 드러낸다 (예: Claude-Haiku-4.5에서 시각 암호가 더 높은 성공률을 보임).
VLM의 견고한 정렬(Robust Alignment)을 위해서는 시각적 데이터를 1차적인 안전 포스트 트레이닝 대상으로 취급해야 한다.

시각 언어 모델 (Vision-Language Models, VLMs) 의 시각 모달리티는 안전 정렬을 우회하기 위한 덜 탐구된 공격 표면입니다. 우리는 시각 구성 요소를 활용하여 4 가지 제일브레이킹 공격을 소개합니다: (1) 해로운 지시를 시각적 기호 시퀀스로 인코딩하고 해독 레전드를 제공, (2) 해로운 물체를 무해한 대체품으로 교체 (예: 폭탄 -> 바나나) 한 후 해당 대체 용어로 해로운 행동을 요청, (3) 이미지 내의 해로운 텍스트 (예: 책 표지) 를 무해한 단어로 대체하면서 시각적 맥락은 원래 의미를 보존, (4) 해결을 위해 금지된 개념을 추론해야 하는 시각 유사성 퍼즐. 6 개의 최전선 VLM 을 대상으로 평가한 결과, 우리의 시각 공격은 안전 정렬을 우회하며 교차 모달리티 정렬 간극을 드러냅니다: 텍스트 기반 안전 훈련은 시각적으로 전달되는 해로운 의도에 자동으로 일반화되지 않습니다. 예를 들어, 우리의 시각 암호는 Claude-Haiku-4.5 에서 40.9% 의 공격 성공률을 달성한 반면, 동등한 텍스트 암호는 10.7% 입니다. 공격 메커니즘에 대한 통찰력을 높이기 위해 우리는 초기 해석 가능성 및 완화 결과를 제시합니다. 이러한 발견은 견고한 VLM 정렬을 위해서는 시각을 안전 포스트 트레이닝의 1 차적 대상으로 취급해야 함을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

시각 언어 모델 (VLM) 을 통한 시각 모달리티를 이용한 제일브레이킹 공격

요약

핵심 포인트

댓글