누가 대가를 치르는가? 실제 웹 에이전트를 위한 이해관계자 중심 프롬프트 주입 벤치마킹
요약
본 논문은 웹 에이전트가 실제 환경에 배치되면서 발생하는 프롬프트 주입 공격의 위험을 다룹니다. 기존의 기술 중심적 벤치마크는 피해 분포를 간과하며, 본 연구에서는 영향을 받는 이해관계자(사용자, 판매자 등)와 목표를 중심으로 피해를 체계적으로 분류하는 '이해관계자 중심적' 벤치마크인 StakeBench/SBC를 제안합니다. 이 벤치마크는 에이전트의 취약점을 질적으로 구별하여 평가할 수 있게 합니다.
핵심 포인트
- 기존 보안 벤치마크는 공격 기술에만 초점 맞춰 피해 분포 간과
- 프롬프트 주입 위험은 피해자 의존적이며 비대칭적 결과 발생 가능
- StakeBench/SBC를 통해 이해관계자 중심의 체계적인 취약점 평가 가능
- 공격 실패 양상은 은밀한 기생, 정렬 불일치 혼란 등 질적으로 구분됨
대규모 언어 모델(LLMs)로 구동되는 웹 에이전트가 점점 더 실세계 환경에 배치되고 있으며, 이곳에서 이들은 신뢰할 수 없는 웹 콘텐츠 위에서 작동하고 직접적인 결과를 초래하는 행동을 실행합니다. 이는 이들을 프롬프트 주입 공격에 취약하게 만드는데, 이때 겉보기에 무해한 콘텐츠 속에 에이전트의 행동을 조작하는 적대적 지침이 삽입됩니다. 기존 보안 벤치마크는 extit{공격 중심적(attack-centric)} 관점을 채택하여 주입의 기술적 실현 가능성에 초점을 맞추는 반면, 그 결과로 발생하는 피해의 미묘한 분포를 간과합니다. 하지만 실제로는 프롬프트 주입 위험이 피해자 의존적입니다: 단일 악용 사례가 서로 다른 이해관계자들에게 비대칭적인 결과를 초래할 수 있으며, 동일한 공격 패턴이라도 누구를 목표로 하느냐에 따라 효과가 상당히 다르게 나타날 수 있습니다. 이러한 속성을 포착하기 위해, 우리는 실제 웹 에이전트 시스템에서 피해를 체계적으로 분류하고 귀속하는 extit{이해관계자 중심적(stakeholder-centric)} 벤치마크인 ** extbf{ extbackslash sysname}**을 소개합니다. 이는 영향을 받는 개체(예: 사용자, 판매자, 플랫폼)를 구분하고, 공격을 구체적인 목표로 분해하며, 각 사례를 보완적인 결과 수준 및 프로세스 수준의 메트릭으로 평가합니다. 우리의 결과는 상당하고 이질적인 취약점을 드러냅니다: 단일한 공격 목표도 현재 에이전트에 의해 안정적으로 방어되지 않으며, 실패는 extit{은밀한 기생(stealthy parasitism)} (공격이 사용자가 위임한 작업을 방해하지 않고 성공하는 경우)부터 extit{정렬 불일치로 인한 혼란(misaligned disruption)} (공격 성공 없이 작업이 방해되는 경우), 그리고 extit{복합 실패(compounded failure)} (적대적 목표와 작업 무결성이 동시에 위반되는 경우)에 이르는 질적으로 구별되는 양상에 걸쳐 분포합니다. 이러한 패턴은 기존 평가 방식으로는 놓치기 쉬우며, 실제 배포 환경에서 LLM 기반 에이전트를 이해관계자 인식 방식으로 평가할 필요성을 강조합니다. 벤치마크는 https://github.com/StakeBench/SBC에서 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기