다양한 방어 전략을 겨냥한 자동화된 탈옥 공격
요약
LLM의 안전성을 평가하기 위해 설계된 적대적 테스트 프레임워크 UNIATTACK을 소개합니다. 이 프레임워크는 공격 특징을 추출하고 공격자 LLM을 통해 최적화하여, 다양한 모델과 방어 체계에 대응하는 자동화된 탈옥 공격을 수행합니다.
핵심 포인트
- 방어 지향적 관점에서 설계된 블랙박스 공격 프레임워크 UNIATTACK 제시
- 공격 특징 추출 및 공격자 LLM을 통한 자동화된 프롬프트 최적화
- 다층 방어 모델에서 베이스라인 대비 공격 성공률(ASR) 대폭 향상
- 기존 방식 대비 매우 낮은 비용으로 효율적인 강건성 평가 가능
대규모 언어 모델 (LLMs)은 광범위한 작업에 걸쳐 놀라운 능력을 입증해 왔습니다. 그러나 적대적 프롬프트 기반 공격 (adversarial prompt-based attacks)에 취약하기 때문에 모델의 안전성은 여전히 중요한 관심사로 남아 있습니다. 본 논문에서는 효과적인 블랙박스 공격 프롬프트 (black-box attack prompts)를 체계적으로 구축하기 위해 방어 지향적 관점에서 설계된 적대적 테스트 프레임워크인 UNIATTACK를 제시합니다. 정적 템플릿이나 반복적인 모델별 튜닝 (model-specific tuning)에 의존하는 이전 방식과 달리, UNIATTACK는 다양한 기존 공격으로부터 최소한이면서도 영향력이 큰 공격 특징 (attack features)을 추출하고, 특화된 공격자 LLM (attacker LLM)을 통해 이를 최적화하며, 자동화된 정제 과정을 통해 이를 유연한 템플릿으로 구성합니다. 이러한 특징 중심의 구축 방식은 여러 모델과 안전 카테고리에 걸쳐 일반화될 수 있는 원샷 공격 (one-shot attacks)을 가능하게 하여, LLM의 강건성 (robustness)을 평가하기 위한 실용적인 도구를 제공합니다. 평가 결과에 따르면, UNIATTACK는 다층 방어 메커니즘 (multi-layered defense mechanisms)이 적용된 모델에서 베이스라인 대비 평균 공격 성공률 (ASR)을 64.63%-248.82% 향상시켰으며, 비용은 베이스라인의 0.03%-4.96% 수준에 불과했습니다. UNIATTACK 결과물은 https://anonymous.4open.science/r/UniAttack-Artifact-30F1 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기