arXiv논문2026. 06. 01. 12:02

상태 유지형 온라인 모니터링(Stateful Online Monitoring)을 통한 분산된 에이전트 공격 탐지

요약

분산된 에이전트 공격을 탐지하기 위한 상태 유지형 온라인 모니터링 기술을 제안합니다. 기존 모니터가 놓치는 계정 간 분산된 유해 행위를 실시간 클러스터링으로 식별하여, 낮은 지연 시간으로 공격을 조기에 포착합니다.

핵심 포인트

분산된 에이전트 공격의 위험성 입증
실시간 클러스터링 기반 상태 유지형 모니터 개발
표준 모니터 대비 공격 탐지 속도 30% 향상
사용자 트래픽에 대한 지연 시간 최소화
적응형 공격자의 탈옥 시도까지 탐지 가능

언어 모델(Language models)은 수천 개의 심각한 소프트웨어 취약점을 찾아낼 수 있으며, 에이전트(agents)가 사이버 공격에 오용되는 사례가 점점 늘어나고 있습니다. 탐지를 피하기 위해 공격자들은 종종 오용 행위를 분산시키는데, 하나의 유해한 작업을 여러 사용자 계정에 나누어 할당함으로써 개별 트랜스크립트(transcript)가 무해해 보이도록 만듭니다. 안전 모니터(safety monitors)는 한 번에 하나의 에이전트 컨텍스트(context)만을 점수화하기 때문에, 여러 계정에 걸쳐 집합적으로만 확인할 수 있는 오용 행위에 대해서는 구조적으로 눈이 멀게 됩니다. 우리는 우리가 아는 한 최초의 분산된 에이전트 공격(distributed agent attack)을 구축함으로써 이러한 격차가 실재함을 보여줍니다. 이 공격은 멀티 에이전트 스캐폴드(multi-agent scaffold)로서, 제한된 컨텍스트를 가진 하위 에이전트(subagents)들 사이에 유해한 목적을 숨기면서 어려운 사이버 보안 작업을 완수하며, 기존 에이전트 공격을 잡아내는 빈도보다 5분의 1 수준으로만 탐지되는 표준 모니터(standard monitor)를 회피합니다. 방어 측면에서, 우리는 실시간 클러스터링(real-time clustering)을 사용하여 여러 에이전트 트랜스크립트 전반에 걸친 약한 의심 신호들을 수집하고, 사용자 계정 간의 오용을 식별하는 언어 모델(language model)로 아주 드물게 에스컬레이션(escalate)하는 온라인 상태 유지형 모니터(online stateful monitor)를 개발합니다. 대규모 시뮬레이션 데이터센터 트래픽을 통한 평가에서, 우리의 모니터는 표준 모니터들을 파레토 우위(Pareto dominates)로 압도하며, 분산 공격을 30% 더 일찍 포착하고 사이버 오용이 가장 유해한 단계에 도달하기 전에 경고를 보냅니다. 결정적으로, 이는 사용자 트래픽의 약 99%에 대해 무시할 수 있는 수준의 추가 지연 시간(latency)만 발생시킵니다. 이러한 탐지 우위는 무해한 배경 트래픽이 매우 커짐에 따라 유지되지만 그 폭은 좁아집니다. 광범위한 레드팀(red-teaming) 연습을 거친 후, 우리는 방어 체계를 개선하였으며, 놀랍게도 적응형 공격자(adaptive attackers)가 계정 전반에 걸쳐 공격 변형을 재사용하기 때문에 이 시스템이 표준 탈옥(jailbreaks)까지 잡아낸다는 사실을 발견했습니다. 우리의 결과는 고립된 트랜스크립트가 아닌 사용자 그룹에 대해 추론하는 새로운 클래스의 안전 모니터(safety monitors)가 필요함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

상태 유지형 온라인 모니터링(Stateful Online Monitoring)을 통한 분산된 에이전트 공격 탐지

요약

핵심 포인트

댓글