arXiv논문2026. 06. 24. 11:03

PHANTOM: 시각-언어 모델 (VLMs)을 위한 대규모 멀티모달 적대적 공격 데이터셋

요약

시각-언어 모델(VLMs)의 안전성과 강건성을 평가하기 위한 대규모 멀티모달 적대적 공격 데이터셋인 PHANTOM을 소개합니다. 10개의 상위 카테고리와 55개의 하위 카테고리를 포함한 47,524개의 적대적 샘플을 제공하여 연구자들이 모델의 취약점을 체계적으로 테스트할 수 있도록 돕습니다.

핵심 포인트

VLMs를 위한 대규모 오픈 소스 적대적 공격 데이터셋 PHANTOM 공개
10개 상위 및 55개 하위 카테고리의 유해한 의도 포함
47,524개의 최첨단 공격 샘플로 구성된 방대한 데이터 제공
모델의 강건성, 정렬 및 방어 가드레일 개발 연구 지원

우리는 시각-언어 모델 (Vision-Language Models, VLMs)을 위해 사전 생성된 적대적 공격 (Adversarial Attacks)에 관한 대규모 오픈 소스 데이터셋을 소개합니다. 이 데이터셋은 다양하고 대표적이며 실용적으로 설계되었으며, 유해한 의도 (Harmful Intents)의 10개 상위 카테고리와 55개 하위 카테고리를 다룸으로써 기존의 벤치마크를 확장합니다. 우리의 주요 목표는 대량의 공격을 생성하는 데 드는 계산 비용과 복잡성을 고려하여, 연구 커뮤니티가 적대적 데이터에 쉽게 접근할 수 있도록 하는 것입니다. 이 데이터셋은 최근 문헌의 최첨단 공격 전략을 사용하여 생성된 47,524개의 적대적 샘플로 구성됩니다. 우리의 연구는 여러 기존 소스로부터 이전 벤치마크를 통합하고 확장하여 7,826개의 의도를 도출하고, 범위를 넓히기 위해 추가적인 카테고리를 도입함으로써 기존의 노력을 보완합니다. 이는 모델의 강건성 (Robustness) 및 정렬 (Alignment)을 연구하기 위한 현실적인 평가 자원을 제공합니다. 우리의 데이터셋은 연구자와 실무자들이 VLMs의 강건성과 안전성을 체계적으로 평가하고, 공격 생성 모델을 미세 조정 (Fine-tune)하며, 다양한 적대적 조건 하에서 방어 가드레일 (Defensive Guardrails)을 개발하거나 스트레스 테스트할 수 있도록 하는 것을 목표로 합니다. 이 리소스를 공개함으로써, 우리는 적대적 연구의 장벽을 낮추고 VLM 안전성에 대한 더욱 재현 가능하고 포괄적이며 비교 가능한 평가를 촉진하고자 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

PHANTOM: 시각-언어 모델 (VLMs)을 위한 대규모 멀티모달 적대적 공격 데이터셋

요약

핵심 포인트

댓글