WARD: 프롬프트 인젝션에 대한 웹 에이전트의 적대적 강건 방어
요약
본 논문은 웹 에이전트가 프롬프트 인젝션 공격에 취약하다는 문제를 다루며, 이를 해결하기 위해 WARD(Web Agent Robust Defense against Prompt Injection)라는 실용적인 가드 모델을 제안합니다. WARD는 대규모 데이터셋인 WARD-Base와 전용 공격 데이터셋 WARD-PIG를 기반으로 구축되었으며, 적응형 적대적 공격 훈련 프레임워크 A3T를 통해 반복적으로 강화됩니다. 실험 결과, WARD는 높은 재현율과 낮은 오탐률을 유지하면서도 다양한 분포 변화 및 적대적 공격에 대해 강건함을 입증했습니다.
핵심 포인트
- 웹 에이전트는 개방된 웹 환경으로 인해 프롬프트 인젝션 공격에 취약하다.
- 기존 가드 모델들은 일반화 성능 부족, 높은 오탐률, 지연 시간 문제 등의 한계를 가진다.
- 제안된 WARD는 대규모 데이터셋(WARD-Base, WARD-PIG)과 적응형 훈련 프레임워크(A3T)를 사용하여 웹 에이전트의 방어력을 강화한다.
- WARD는 분포 외 환경에서도 높은 재현율을 달성하고, 낮은 오탐률을 유지하며 효율적으로 작동함을 입증했다.
웹 에이전트 (Web agents)는 웹사이트와 상호작용함으로써 온라인 작업을 자율적으로 완료할 수 있지만, 개방된 웹 환경에 노출되어 있어 HTML 콘텐츠나 시각적 인터페이스에 포함된 프롬프트 인젝션 (Prompt injection) 공격에 취약합니다. 기존의 가드 모델 (Guard models)은 여전히 보지 못한 도메인 및 공격 패턴에 대한 제한된 일반화 성능, 양성 콘텐츠에 대한 높은 오탐률 (False positive rates), 각 단계에서 추가되는 지연 시간 (Latency)으로 인한 배포 효율성 저하, 그리고 시간이 지남에 따라 진화하거나 가드 자체를 직접 겨냥하는 적대적 공격 (Adversarial attacks)에 대한 취약성 문제를 겪고 있습니다. 이러한 한계를 해결하기 위해, 우리는 안전하고 효율적인 웹 에이전트를 위한 실용적인 가드 모델인 WARD (Web Agent Robust Defense against Prompt Injection)를 제안합니다. WARD는 719개의 트래픽이 높은 URL 및 플랫폼에서 수집된 약 177K개의 샘플로 구성된 대규모 데이터셋인 WARD-Base와, 가드 모델을 겨냥한 프롬프트 인젝션 공격을 위해 설계된 전용 데이터셋인 WARD-PIG를 기반으로 구축되었습니다. 나아가 우리는 메모리 기반의 공격자 및 가드 공동 진화 (Co-evolution) 프로세스를 통해 WARD를 반복적으로 강화하는 적응형 적대적 공격 훈련 프레임워크인 A3T를 소개합니다. 광범한 실험을 통해 WARD는 분포 외 (Out-of-distribution) 벤치마크에서 거의 완벽한 재현율 (Recall)을 달성하고, 에이전트의 유용성을 보존하기 위해 낮은 오탐률을 유지하며, 상당한 분포 변화 (Distribution shifts) 하에서도 가드 타겟팅 및 적응형 공격에 대해 강건함을 유지하고, 추가적인 지연 시간 없이 에이전트와 병렬로 효율적으로 실행됨을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기