arXiv논문2026. 06. 02. 12:23

AgentRedBench: SaaS 연동 LLM 에이전트를 위한 동적 레드팀 테스트 및 통합 인식 방어 체계

요약

SaaS 연동 LLM 에이전트를 겨냥한 간접 프롬프트 주입 위협을 평가하는 새로운 벤치마크 AgentRedBench를 소개합니다. 24개 기업용 서비스를 대상으로 동적 레드팀 테스트를 수행하며, 방어 모델인 AgentRedGuard를 통해 공격 성공률을 획기적으로 낮추는 성과를 입증했습니다.

핵심 포인트

SaaS 연동 에이전트의 간접 프롬프트 주입 위협 분석
24개 기업용 서비스와 5가지 공격 유형을 포함한 동적 벤치마크
AgentRedGuard 모델을 통한 공격 성공률(ASR) 대폭 감소
기존 오픈 소스 방어 도구 대비 우수한 탐지 성능 확인

도구 사용(tool-use) 에이전트에서의 간접 프롬프트 주입(Indirect prompt injection)은 실질적인 운영 환경의 위협입니다. LLM 에이전트는 도구 호출(tool calls)을 통해 접근하는 연동 서비스(Gmail, Salesforce 또는 Jira와 같은 제3자 서비스)로부터 데이터를 읽어오는데, 이 응답 콘텐츠는 사용자가 직접 작성하거나 제어할 수 없는 것입니다. 기존의 벤치마크들은 이러한 위협을 과소평가하고 있습니다. 대부분의 벤치마크는 소수의 연동 서비스만을 다루며 동일한 공격 페이로드(attack payload)를 반복 실행하는 방식인 반면, 오픈 소스 방어 도구들은 도구 응답(tool-response) 콘텐츠가 아닌 채팅 스타일의 데이터로 학습되었습니다.

우리는 AGENTREDBENCH를 소개합니다. 이는 9개의 기능적 제품군과 5가지 공격 유형에 걸쳐 24개의 기업용 연동 서비스를 대상으로, 215개의 미묘하고 불충분하게 명시된 권한 부여(사용자의 요청이 허가하는 경계에서의 공격) 시나리오를 다루는 동적인 LLM 기반 레드팀(redteaming) 벤치마크입니다. 8개 모델 패널(Anthropic, OpenAI, Google)을 대상으로 테스트한 결과, 방어 도구가 없는 상태에서의 공격 성공률(ASR, attack success rate)은 32%(Claude Sonnet 4.6)에서 81%(Gemini 3 Flash) 사이로 나타났습니다. 시나리오 세트가 학습 코퍼스(training corpora)에 포함되는 것을 방지하고 시간이 지나도 핵심 ASR 수치의 의미를 유지하기 위해, 우리는 코드베이스, 연동 스키마(integration schemas), 그리고 AGENTREDGUARD 모델을 공개합니다. 표준 시나리오들은 불변의 버전 관리를 통해 관리자가 중재하는 채널을 통해 평가됩니다.

우리는 벤치마크와 함께 AGENTREDGUARD를 출시합니다. 이는 다양한 연동 서비스의 적대적 도구 응답 콘텐츠 코퍼스로 학습된 방어 모델입니다. AGENTREDGUARD는 0.37%의 오탐률(false-positive rate)에서 패널 ASR을 69.9%에서 2.4%로 낮추었으며, 두 지표 모두에서 기존의 모든 오픈 소스 베이스라인(Llama Guard, PromptGuard 2, ProtectAI)보다 유의미한 탐지 성능을 보이며 이를 능가했습니다. 연동 서비스 간(cross-integration) 및 공격 유형 간(cross-attack type) 홀드아웃(holdouts) 테스트 결과 모두, 이러한 성능 향상이 학습 서브셋을 넘어 전이됨을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

AgentRedBench: SaaS 연동 LLM 에이전트를 위한 동적 레드팀 테스트 및 통합 인식 방어 체계

요약

핵심 포인트

댓글