안전한 LLM 에이전트를 향하여: 위협 표면, 공격, 방어 및 평가
요약
LLM 에이전트의 보안 위협을 체계적으로 모델링하기 위해 247편의 논문을 분석한 라이프사이클 기반 프레임워크를 제안합니다. 프롬프트 인젝션과 같은 기존 위협 외에도 상태 손상 및 멀티 에이전트 전파와 같은 신흥 위험을 식별하고 대응 방안을 제시합니다.
핵심 포인트
- 에이전트 보안을 위한 라이프사이클 기반 시스템 프레임워크 제안
- 프롬프트 인젝션 및 도구 매개 제어 흐름 하이재킹의 지배적 위협 확인
- 지속적 상태 손상 및 멀티 에이전트 전파를 신흥 핵심 위협으로 정의
- 명시적 신뢰 경계 및 원칙적인 권한 제어의 필요성 강조
- 기존 벤치마크의 장기적·상태 유지형 위험 평가 한계 지적
대규모 언어 모델 (LLM) 에이전트는 대화형 인터페이스에서 계획을 세우고, 도구를 호출하며, 메모리를 유지하고, 외부 환경에서 행동하는 소프트웨어 구성 요소로 빠르게 변화하고 있습니다. 이러한 전환은 보안 위험의 본질을 변화시킵니다. 에이전트 설정 (agentic settings)에서 실패는 더 이상 안전하지 않은 텍스트 생성에 국한되지 않습니다. 신뢰할 수 없는 콘텐츠는 제어 흐름 (control flow)을 재지정하거나, 도구 권한을 오용하거나, 지속적인 상태 (persistent state)를 손상시키거나, 민감한 정보를 유출하거나, 해로운 외부 동작을 트리거할 수 있습니다. 동시에, LLM 에이전트 보안에 대한 연구는 빠르게 확장되고 있지만 공격 유형 (attack families), 방어 계층 (defense layers), 애플리케이션 도메인 및 평가 설정에 걸쳐 파편화된 상태로 남아 있습니다. 본 논문은 정보 흐름 (information flow), 위임된 권한 (delegated authority), 지속적인 상태의 상호작용을 중심으로 에이전트 보안을 모델링하는 라이프사이클 기반의 시스템 지향적 프레임워크를 통해 247편의 논문을 종합합니다. 우리는 문헌을 네 가지 질문을 중심으로 정리합니다: LLM 에이전트 보안을 어떻게 모델링해야 하는가, 어떤 위협 표면 (threat surfaces)과 공격 유형이 지배적인가, 어떤 방어책이 제안되었으며 어떤 트레이드오프 (tradeoffs)가 있는가, 그리고 보안 주장이 어떻게 평가되는가입니다. 우리는 프롬프트 인젝션 (prompt injection)과 도구 매개 제어 흐름 하이재킹 (tool-mediated control-flow hijacking)이 여전히 이 분야를 지배하고 있는 반면, 지속적인 상태 손상 (persistent state corruption)과 멀티 에이전트 전파 (multi-agent propagation)가 중심적인 신흥 관심사로 떠오르고 있음을 발견했습니다. 나아가 우리는 현재의 방어책들이 유용한 구성 요소들을 제공하지만 구성성 (compositionality) 측면에서는 여전히 취약하며, 기존의 벤치마크들은 여전히 장기적 (long-horizon), 상태 유지형 (stateful), 배포 민감형 (deployment-sensitive) 위험을 충분히 나타내지 못하고 있음을 발견했습니다. 우리는 안전한 LLM 에이전트를 위해 명시적인 신뢰 경계 (trust boundaries), 원칙적인 권한 제어 (privilege control), 출처 인식 상태 관리 (provenance-aware state management), 그리고 실제 운영 환경과 일치하는 평가 관행이 필요하다고 주장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기