본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 05. 06:37

시각 언어 모델 (VLM) 을 통한 시각 모달리티를 이용한 제일브레이킹 공격

요약

본 논문은 시각 언어 모델(VLM)의 시각 모달리티를 활용하여 기존의 안전 정렬(Safety Alignment)을 우회하는 네 가지 새로운 '제일브레이킹 공격' 기법을 제시합니다. 이 공격들은 해로운 지시를 시각적 기호로 인코딩하거나, 위험한 물체를 무해한 대체품으로 교체하고, 이미지 내 텍스트를 수정하는 등 다양한 방식으로 이루어집니다. 실험 결과, 이러한 시각 기반 공격은 텍스트 기반 안전 훈련만으로는 포착하기 어려운 취약점을 드러냈으며, VLM의 견고한 정렬을 위해서는 시각적 측면을 필수적으로 고려해야 함을 강조합니다.

핵심 포인트

  • VLM의 시각 모달리티는 아직 충분히 탐구되지 않은 공격 표면(Attack Surface)이다.
  • 제시된 4가지 공격 기법은 해로운 지시를 시각적 형태로 변환하거나, 물체/텍스트를 대체하여 안전 필터를 우회한다.
  • 시각 기반 공격은 텍스트 기반의 안전 정렬만으로는 방어할 수 없는 취약점을 드러낸다 (예: Claude-Haiku-4.5에서 시각 암호가 더 높은 성공률을 보임).
  • VLM의 견고한 정렬(Robust Alignment)을 위해서는 시각적 데이터를 1차적인 안전 포스트 트레이닝 대상으로 취급해야 한다.

시각 언어 모델 (Vision-Language Models, VLMs) 의 시각 모달리티는 안전 정렬을 우회하기 위한 덜 탐구된 공격 표면입니다. 우리는 시각 구성 요소를 활용하여 4 가지 제일브레이킹 공격을 소개합니다: (1) 해로운 지시를 시각적 기호 시퀀스로 인코딩하고 해독 레전드를 제공, (2) 해로운 물체를 무해한 대체품으로 교체 (예: 폭탄 -> 바나나) 한 후 해당 대체 용어로 해로운 행동을 요청, (3) 이미지 내의 해로운 텍스트 (예: 책 표지) 를 무해한 단어로 대체하면서 시각적 맥락은 원래 의미를 보존, (4) 해결을 위해 금지된 개념을 추론해야 하는 시각 유사성 퍼즐. 6 개의 최전선 VLM 을 대상으로 평가한 결과, 우리의 시각 공격은 안전 정렬을 우회하며 교차 모달리티 정렬 간극을 드러냅니다: 텍스트 기반 안전 훈련은 시각적으로 전달되는 해로운 의도에 자동으로 일반화되지 않습니다. 예를 들어, 우리의 시각 암호는 Claude-Haiku-4.5 에서 40.9% 의 공격 성공률을 달성한 반면, 동등한 텍스트 암호는 10.7% 입니다. 공격 메커니즘에 대한 통찰력을 높이기 위해 우리는 초기 해석 가능성 및 완화 결과를 제시합니다. 이러한 발견은 견고한 VLM 정렬을 위해서는 시각을 안전 포스트 트레이닝의 1 차적 대상으로 취급해야 함을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0