본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 26. 11:21

모달리티를 가로지르는 적대적 확산: 텍스트, 비전 및 시각-언어 모델에 대한 공격, 방어 및 평가의 융합 조사

요약

텍스트, 비전, 시각-언어 모델을 대상으로 하는 확산 기반 적대적 공격 및 방어 기술을 통합적으로 조사한 연구입니다. 네 가지 주요 경로를 단일 프레임워크로 통합하고, 50편의 논문을 분석하여 새로운 분류 체계와 평가 기준을 제안합니다.

핵심 포인트

  • 텍스트, 이미지, 시각-언어 모델 간의 적대적 공격/방어 방법론 통합
  • 확산 모델(Diffusion Models)을 활용한 공격 및 입력 정화 방어 기법 분석
  • 공격 성공률, 전이성, 쿼리 예산 등 5가지 차원의 평가 프레임워크 제안
  • LLM 보안 측면의 5가지 주요 약점 식별 및 향후 연구 과제 제시

AI 시스템에 대한 적대적 평가(Adversarial evaluation)는 크게 서로 분리된 네 가지 경로를 따라 성숙해 왔습니다: 텍스트 및 대규모 언어 모델(LLMs)에 대한 확산 기반(diffusion-based) 공격, 이미지 분류기에 대한 확산 기반 공격, 시각-언어 모델(vision-language models)에 대한 탈옥(jailbreak) 파이프라인, 그리고 확산 기반 입력 정화(input purification) 방어입니다. 각 경로는 고유한 어휘, 위협 모델(threat models), 벤치마크를 발전시켜 왔으며, 디노이징 확산 모델(denoising diffusion models)이 공유된 생성 메커니즘으로 부상함에 따라 그 방법론들이 현재 커뮤니티 간에 활발히 이식되고 있습니다. 본 조사(survey)는 메타 연구 수준에서 정보 융합 작업을 수행합니다. 우리는 이러한 네 가지 경로를 통합된 분류 체계(taxonomy), 평가 기준 및 연구 과제와 함께 단일 개념적 프레임워크로 통합하며, 특히 LLM 측면의 영역에 집중합니다. 우리는 네 가지 범위 영역(텍스트/LLM, 이미지 분류기, 시각-언어 모델, 방어)에 걸쳐 발표된 50편의 논문을 목록화하였으며, 추가로 4개의 확산-LLM-피해자(diffusion-LLM-as-victim) 항목과 모든 새로운 공격이 비교되어야 하는 10개의 비확산(non-diffusion) 베이스라인을 포함했습니다. 우리는 적대적 파이프라인 내에서의 확산 역할에 대한 6개 클래스 분류 체계를 제안하며, 이는 공격자의 지식, 쿼리 예산(query budget), 타겟 접근성을 기록하는 위협 모델 축에 의해 보강됩니다. 또한, 5가지 차원 프레임워크(공격 성공률(attack success rate), 전이성(transferability), 쿼리 예산(query budget), 당혹도(perplexity), 방어 회피(defense-evasion))를 모든 모달리티에 걸쳐 균일하게 적용합니다. 본 리뷰는 공격자와 방어자의 이중적 관점을 채택합니다. 공격 카탈로그와 더불어, 새로운 공격의 자연스러운 평가 배경을 형성하는 네 가지 확산 기반 방어 기법을 다룹니다. 우리의 비판적 분석은 현재 LLM 측면 문헌에서 반복되는 다섯 가지 약점을 식별하며, 미해결 질문과 구체적인 실험 설계가 담긴 연구 과제로 마무리합니다. 관련 카탈로그와 스프레드시트는 논문과 함께 공개됩니다. 우리는 이것이 PRISMA를 준수하는 체계적 문헌 고찰(systematic review)이 아니라 품질 평가를 포함한 서사적 리뷰(narrative review)임을 명시하며, 재현(replication)에 미치는 영향에 대해 논의합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0