arXiv논문2026. 06. 24. 10:12

에이전트형 레드팀(Agentic Red-Team)에 대한 레드팀 공격

요약

에이전트형 보안 시스템의 설계 결함과 보안 취약점을 심층 분석한 연구입니다. 공격자가 샌드박스를 탈출하여 API 키를 유출하거나 시스템을 장악할 수 있는 사이버 킬 체인을 제시하며, 이를 방어하기 위한 견고한 아키텍처 설계 원칙을 제안합니다.

핵심 포인트

에이전트형 시스템의 공통적인 설계 결함 및 보안 취약점 발견
LLM 조작부터 샌드박스 탈출까지 이어지는 사이버 킬 체인 도입
API 키 유출 및 운영자 기기 장악 가능성 입증
에이전트형 공격 도구를 위한 견고한 아키텍처 및 설계 원칙 제안

공격적인 보안 운영(offensive security operations)을 수행하기 위한 에이전트형 시스템(agentic systems)의 사용은 이론적인 가능성에서 상품화된 역량으로 이동했습니다. 그러나 커뮤니티가 점점 더 유능한 에이전트를 만드는 데 집중하는 동안, 이러한 시스템의 보안을 평가하는 데에는 주의를 덜 기울였습니다. 본 연구에서는 공격적인 보안 운영을 위해 가장 널리 사용되는 에이전트형 시스템에 대한 최초의 심층적인 보안 분석을 제시합니다. 우리는 이러한 도구 대부분이 공통적인 설계 결함을 공유하고 있음을 보여주며, 이를 통해 능동적인 공격자(active adversary)가 에이전트가 샌드박스 컨테이너(sandboxed container) 내부에서 작동하더라도 API 키를 유출하고, 지속적인 거점(persistent footholds)을 확보하며, 운영자의 기계를 완전히 장악할 수 있음을 보여줍니다. 우리의 분석을 지원하기 위해, 우리는 초기 LLM 조작(LLM manipulation)부터 측면 이동(lateral movement), 지속성(persistence), 가드레일 우회(guardrail bypass), 그리고 샌드박스 탈출(sandbox escape)에 이르는 진행 과정을 포착하는 이러한 에이전트형 시스템을 위한 완전한 사이버 킬 체인(cyber kill chain)을 도입합니다. 보안 분석을 바탕으로, 우리는 에이전트형 공격 보안 도구를 위한 견고한 아키텍처를 도출하고, 공개된 공격 경로를 아키텍처 수준에서 완화할 수 있는 실행 가능하며 광범위하게 적용 가능한 설계 원칙을 제안합니다.

AI 자동 생성 콘텐츠

원문 바로가기

에이전트형 레드팀(Agentic Red-Team)에 대한 레드팀 공격

요약

핵심 포인트

댓글