지속 상태 AI 제어에서의 분산 공격

AI 코딩 에이전트가 점점 더 자율적으로 변함에 따라, 이들은 코드베이스가 세션 전반에 걸쳐 지속되는 방식으로 코드를 반복적으로 배포하게 됩니다. 이러한 지속성(persistence)은 새로운 공격 표면(attack surface)을 생성합니다. 즉, 정렬되지 않았거나(misaligned) 프롬프트 주입(prompt-injected)된 에이전트가 풀 리퀘스트(Pull Requests, PRs)에 걸쳐 공격을 분산시키고, 가장 자연스러운 은폐가 가능한 PR에 맞춰 페이로드를 실행할 수 있습니다. 이러한 결과로 나타나는 역학을 연구하기 위해, 우리는 유능하지만 잠재적으로 신뢰할 수 없는 AI를 안전하게 배포하는 연구 분야인 AI 제어(AI control)의 설정으로서 'Iterative VibeCoding'을 도입합니다. Iterative VibeCoding에서 코딩 에이전트는 은밀한 부가 작업(side task)을 수행하는 동시에 지속적인 코드베이스 내에서 일련의 PR을 통해 소프트웨어를 구축합니다. 우리의 벤치마크는 총 20개의 작업 변형에 걸쳐 CLI 도구와 Flask 웹 서비스라는 두 가지 작업군을 포함합니다. 우리는 공격 에이전트로 Claude Sonnet 4.5를, 모니터로 GPT-4o를 사용합니다. 우리는 부가 작업을 여러 PR에 분산시키는 점진적 공격(gradual attacks)을 단일 PR에 집중된 비점진적 공격(non-gradual attacks)과 비교합니다. 단일 모니터로는 두 가지 모두에 견고하게 대응할 수 없습니다. 어떤 전략이 가장 잘 회피하는지(모니터를 피하면서 성공하는지)는 모니터 유형에 따라 다르므로, 방어자는 단일 모니터만으로는 점진적 공격과 비점진적 공격을 모두 차단할 수 없습니다. 높은 회피율(>= 65%)은 공격 에이전트 모델 백엔드(Sonnet 4.5, Gemini 3.1 Pro, Kimi K2.5) 전반에 걸쳐 일반화되며, 이는 이것이 특정 모델의 능력이 아니라 지속 상태(persistent-state) 공격 표면의 특성임을 확인시켜 줍니다. 회피율은 최첨단 모니터 모델 전반에서도 높게 유지되며, 점진적 회피와 비점진적 회피 사이의 격차는 더 유능한 모델일수록 더 벌어집니다. 우리는 PR 전반에 걸쳐 의심스러운 축적을 추적하는 상태 유지 링크 트래커(stateful link-tracker) 모니터를 도입합니다. 두 작업군 모두에서, 이 모니터는 단순히 누적된 이력을 더 많이 보는 디프(diff) 모니터보다 점진적 공격을 실질적으로 더 잘 탐지합니다. 이 더 강력한 모니터를 궤적 모니터(trajectory monitors)와 결합하여 4중 모니터 앙상블(four-monitor ensemble)로 구성하면, 가장 취약한 표준 디프 모니터 하에서의 93%였던 점진적 공격 회피율을 47%로 낮출 수 있습니다.

Insights

지속 상태 AI 제어에서의 분산 공격

요약

핵심 포인트

댓글

Palantir CEO Alex Karp: 기업들은 비즈니스 가치를 "훔치는" AI 모델에 대해 "격분"하고 있다

Susquehanna, 반도체 장비 지출 전망 상향에 따라 Teradyne 목표가를 시장 최고치인 $550로 상향

5분 만에 SSH 키 인증 (SSH Key Authentication) 설정하는 방법

Robinhood, 유럽 내 무기한 선물 서비스 확대 및 영국 내 암호화폐 출시 계획 발표

Susquehanna, 반도체 장비 지출 전망 상향에 따라 Teradyne 목표가를 시장 최고치인 $550로 상향

5분 만에 SSH 키 인증 (SSH Key Authentication) 설정하는 방법

Robinhood, 유럽 내 무기한 선물 서비스 확대 및 영국 내 암호화폐 출시 계획 발표