AI 에이전트를 위한 효율적이고 건전한 확률적 검증 (Efficient and Sound Probabilistic Verification
요약
AI 에이전트의 보안을 위해 확률적 술어와 상태 전이를 고려한 새로운 검증 프레임워크를 제안합니다. 분포 강건 최적화를 활용하여 술어 간 상관관계가 있더라도 정책 위반 확률의 건전한 상한선을 계산할 수 있습니다.
핵심 포인트
- 기존 결정론적 정책의 한계를 넘어 확률적 환경에서의 에이전트 보호
- 분포 강건 최적화 기반의 건전하고 효율적인 검증 프레임워크 도입
- 술어 간 상관관계에 관계없이 정책 위반 확률의 상한선 보장
- 표준 벤치마크에서 보안-유용성 트레이드오프 개선 입증
복잡한 디지털 환경에서 작동하는 AI 에이전트를 보호하는 것은 매우 중요한 과제가 되었으며, Datalog와 같은 형식 언어 (formal language)로 표현된 정책을 수립하고 집행하는 런타임 모니터링 (runtime monitoring) 접근 방식은 유망한 해결책을 제공합니다. 그러나 기존의 접근 방식은 결정론적 정책 (deterministic policies)에 국한되어 있습니다. AI 에이전트의 많은 실제 응용 사례에서는 모호함에 직면했을 때 보안 정책을 집행할 필요가 있으며, 이는 확률적 술어 (probabilistic predicates) 또는 상태 전이 (state transitions)로 이어집니다 (예를 들어, 호출 시마다 일정 수준의 실패 확률을 가진 비식별화 도구 (declassifier) 또는 개인정보 (PII) 탐지기). 더욱이, 이러한 많은 응용 분야에서는 Datalog에서의 확률적 추론 (probabilistic inference)에 관한 기존 연구를 적용하는 데 필요한 독립성 가정 (independence assumptions)을 쉽게 설정할 수 없습니다. 우리는 분포 강건 최적화 (distributionally robust optimization)에 기반하여 이러한 검증을 위한 건전하고 효율적인 프레임워크를 도입함으로써 이 문제를 해결하며, 술어 간의 가능한 상관관계에 관계없이 정책 위반 확률에 대한 건전한 상한선 (sound upper bounds)을 계산합니다. 터미널 및 도구 호출 (tool calling) 에이전트에 대한 표준 벤치마크에서, 우리의 접근 방식이 기존 기술보다 성능이 뛰어나며 정책 위반 확률에 대한 엄격한 경계 (rigorous bounds)를 보장하는 동시에 보안-유용성 트레이드오프 (security-utility trade-off)를 개선함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기