arXiv논문2026. 06. 18. 12:10

AI 에이전트를 위한 런타임 준수 검증 (Runtime Compliance Verification for AI Agents)

요약

AI 에이전트의 도구 사용 및 데이터 처리 과정에서 GDPR 규정 준수를 보장하기 위한 런타임 검증 프레임워크 C-Trace를 제안합니다. 실행 트레이스를 분석하여 비준수 동작을 실시간으로 차단하고, 레드팀 공격을 통해 프레임워크의 방어 성능을 입증했습니다.

핵심 포인트

GDPR 요구 사항을 형식적 정책 술어로 변환하여 에이전트 실행에 적용
도구 호출과 모델 출력을 가로채 비준수 동작을 거부하는 런타임 모니터링
공격 대화 및 DSPy 생성 프롬프트를 활용한 에이전트 보안 테스트
실험 결과, 특정 조건에서 공격 성공률(ASR)을 12% 이하로 유지

AI 에이전트는 이제 도구 사용 (tool use), 함수 호출 (function calls), 다회차 대화 (multi turn dialogue)를 통해 개인 데이터를 처리하며, 이는 일반 데이터 보호 규정 (GDPR)에 따른 의무를 발생시킬 수 있습니다. 현재의 테스트 관행은 주로 오프라인 레드팀 (red teaming) 또는 정적 프롬프트 검토 (static prompt review)에 의존하고 있지만, 에이전트의 동작이 규제 규칙을 따르는지 런타임 (runtime)에 보장하지는 못합니다. 우리는 다음과 같은 검증 프레임워크인 C-Trace (Compliance Trace based Runtime Agent Conformance Enforcement)를 제안합니다: (i) 동의 (consent), 목적 제한 (purpose limitation), 데이터 최소화 (data minimization), 삭제 권리 (right to erasure)를 포함한 GDPR 요구 사항의 하위 집합을 에이전트 실행 트레이스 (execution traces)에 대한 형식적 정책 술어 (formal policy predicates)로 표현합니다; (ii) 모든 도구 호출 (tool invocation)과 모델 출력을 가로채고 비준수 동작을 거부하는 런타임 모니터 (runtime monitor)를 사용합니다; (iii) 위반을 유도하려는 DSPy 생성 프롬프트 및 레드팀 코퍼스 (red teaming corpora)의 축자적 프롬프트 (verbatim prompts)를 포함한 공격 대화로 에이전트를 테스트합니다. 우리는 GDPR로 재구성된 4가지 사례 연구를 통해 이 프레임워크를 평가합니다. 드롭아웃 (drop-out) 및 오버타이핑 (over-typing)을 포함하여 카테고리당 추출기 노이즈 (extractor noise)가 10% 미만일 때, 모니터는 공격 성공률 (ASR)을 비교 대상 베이스라인보다 낮은 12% 이하로 유지하며, 오탐 (false positives)을 16% 이하로 유지하고, 완벽한 추출 환경에서는 0%의 ASR을 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AI 에이전트를 위한 런타임 준수 검증 (Runtime Compliance Verification for AI Agents)

요약

핵심 포인트

댓글