arXiv논문2026. 06. 16. 22:53

다양한 방어 전략을 겨냥한 자동화된 탈옥 공격

요약

LLM의 안전성을 평가하기 위해 설계된 적대적 테스트 프레임워크 UNIATTACK을 소개합니다. 이 프레임워크는 공격 특징을 추출하고 공격자 LLM을 통해 최적화하여, 다양한 모델과 방어 체계에 대응하는 자동화된 탈옥 공격을 수행합니다.

핵심 포인트

방어 지향적 관점에서 설계된 블랙박스 공격 프레임워크 UNIATTACK 제시
공격 특징 추출 및 공격자 LLM을 통한 자동화된 프롬프트 최적화
다층 방어 모델에서 베이스라인 대비 공격 성공률(ASR) 대폭 향상
기존 방식 대비 매우 낮은 비용으로 효율적인 강건성 평가 가능

대규모 언어 모델 (LLMs)은 광범위한 작업에 걸쳐 놀라운 능력을 입증해 왔습니다. 그러나 적대적 프롬프트 기반 공격 (adversarial prompt-based attacks)에 취약하기 때문에 모델의 안전성은 여전히 중요한 관심사로 남아 있습니다. 본 논문에서는 효과적인 블랙박스 공격 프롬프트 (black-box attack prompts)를 체계적으로 구축하기 위해 방어 지향적 관점에서 설계된 적대적 테스트 프레임워크인 UNIATTACK를 제시합니다. 정적 템플릿이나 반복적인 모델별 튜닝 (model-specific tuning)에 의존하는 이전 방식과 달리, UNIATTACK는 다양한 기존 공격으로부터 최소한이면서도 영향력이 큰 공격 특징 (attack features)을 추출하고, 특화된 공격자 LLM (attacker LLM)을 통해 이를 최적화하며, 자동화된 정제 과정을 통해 이를 유연한 템플릿으로 구성합니다. 이러한 특징 중심의 구축 방식은 여러 모델과 안전 카테고리에 걸쳐 일반화될 수 있는 원샷 공격 (one-shot attacks)을 가능하게 하여, LLM의 강건성 (robustness)을 평가하기 위한 실용적인 도구를 제공합니다. 평가 결과에 따르면, UNIATTACK는 다층 방어 메커니즘 (multi-layered defense mechanisms)이 적용된 모델에서 베이스라인 대비 평균 공격 성공률 (ASR)을 64.63%-248.82% 향상시켰으며, 비용은 베이스라인의 0.03%-4.96% 수준에 불과했습니다. UNIATTACK 결과물은 https://anonymous.4open.science/r/UniAttack-Artifact-30F1 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

다양한 방어 전략을 겨냥한 자동화된 탈옥 공격

요약

핵심 포인트

댓글