arXiv논문2026. 06. 19. 12:17

에이전트형 AI 시스템에 대한 모델 가이드 자동화 공격에 대한 방어적 오도(Defensive Misdirection) 분석

요약

에이전트형 AI 시스템을 겨냥한 자동화된 프롬프트 주입 및 탈옥 공격을 분석하고, 기존의 차단 방식 대신 공격자를 속이는 '방어적 오도' 전략을 제안합니다. CMPE라는 새로운 방어 기법을 통해 공격 성공률을 획기적으로 낮출 수 있음을 입증했습니다.

핵심 포인트

에이전트형 AI의 자동화된 공격에 따른 보안 위협 증가
기존의 탐지 및 차단 방식은 공격자에게 유용한 피드백을 제공할 위험이 있음
공격자의 판독기에 허위 양성을 유도하는 '탐지 및 오도' 전략 제안
CMPE 기법을 통해 탈옥 공격 성공률을 최대 두 자릿수까지 감소

에이전트형 AI (Agentic AI) 시스템은 지침을 해석하고, 외부 데이터를 처리하며, 도구를 호출하고, 다른 에이전트와 협력하기 위해 언어 모델 (Language-model) 구성 요소에 점점 더 많이 의존하고 있습니다. 이러한 능력은 특히 공격자가 탐색, 프롬프트 정제(Prompt refinement), 응답 평가를 확장하기 위해 모델 가이드 자동화 (Model-guided automation)를 채택함에 따라 프롬프트 주입 (Prompt-injection) 및 탈옥 (Jailbreak) 공격의 결과적 중요성을 더욱 높이고 있습니다. 본 연구는 대상 시스템, 방어 메커니즘, 그리고 공격자의 자동화된 판독기 (Automated judge)에 대한 확률 모델을 통해 결과적인 공격-방어 설정을 분석합니다. 우리의 분석에 따르면, 예측 가능한 거부 (Predictable refusals)는 자동화된 탐색에 유용한 피드백을 제공하기 때문에, 쿼리 예산 (Query budget)이 증가함에 따라 기존의 탐지 및 차단 (Detect-and-block) 방어 방식은 공격 성공률 (ASR)을 1에 가깝게 만들 수 있음을 보여줍니다. 그런 다음 우리는 탐지 및 오도 (Detect-and-misdirect) 방식을 조사합니다. 이 방식에서는 탐지된 악성 상호작용에 대해 공격자의 판독기에 허위 양성 (False-positive) 오류를 유도하도록 설계된 제어된 비작동적 응답을 제공합니다. 이 전략은 공격자가 선택한 후보들의 양성 예측 가치 (Positive predictive value)를 감소시키며 제한된 점근적 ASR (Asymptotic ASR)을 산출합니다. 우리는 자동화된 탈옥 설정에서 예측 가능한 거부 텍스트를 안전하지만 전략적으로 오도하는 응답으로 대체하도록 설계된 경량 대화형 오도 방법인 점진적 참여를 통한 문맥적 오도 (Contextual Misdirection via Progressive Engagement, CMPE)를 통해 이 전략의 개념 증명 (Proof-of-concept) 구현을 평가합니다. 탈옥 벤치마크에서 CMPE는 추정된 ASR 상한을 최대 두 자릿수까지 줄이며, 엔드 투 엔드 (End-to-end) PAIR 및 GPTFuzz 공격 실행에서 검증된 공격 성공을 거의 제거합니다.

AI 자동 생성 콘텐츠

원문 바로가기

에이전트형 AI 시스템에 대한 모델 가이드 자동화 공격에 대한 방어적 오도(Defensive Misdirection) 분석

요약

핵심 포인트

댓글