관찰할 수 없는 것을 통제하기: 자율 AI 에이전트를 위한 적응형 런타임 거버넌스
요약
본 논문은 자율 AI 에이전트가 코드 변경 없이도 발생할 수 있는 행동 드리프트, 적대자 적응 등으로 인한 안전성 문제를 다루기 위해 '정보적 생존 가능성 원칙(Informational Viability Principle)'을 제안합니다. 이 원칙에 따라 에이전트의 행동은 추정된 위험 상한선($ ext{B}(x)$)보다 큰 안전 마진 내에서만 허용됩니다. 이를 구현하는 'RiskGate' 프레임워크는 모니터링, 예견, 단조 제한이라는 세 가지 속성을 기반으로 하며, 예측형 거버넌스(Predictive Governance)를 제공하여 AI의 신뢰성과 안전성을 강화합니다.
핵심 포인트
- 자율 AI 에이전트는 코드 변경 없이도 드리프트나 적응 등으로 인해 안전성이 저하될 수 있다.
- 제안된 '정보적 생존 가능성 원칙'은 추정된 위험 상한선 대비 충분한 안전 마진을 확보할 때만 행동을 허용한다.
- 프레임워크는 모니터링, 예견(forecasting), 단조 제한이라는 세 가지 속성을 통해 에이전트의 안정적인 운영을 보장한다.
- RiskGate는 KL 발산 등 통계적 추정량과 Aubin의 규제 맵을 활용하여 폐쇄 루프 Autopilot 시스템으로 구현된다.
- 스칼라 생존 가능성 지수($VI(t)$)와 예측은 거버넌스를 반응형에서 예측형으로 전환하는 핵심 요소이다.
자율 AI 에이전트는 코드 변경 없이도 행동의 드리프트 (drift), 적대자의 적응, 결정 패턴의 변화 등으로 인해 완전히 승인된 상태에서도 안전하지해질 수 있습니다. 우리는 extbf{정보적 생존 가능성 원칙 (Informational Viability Principle)}을 제안합니다. 이 원칙에 따르면 에이전트를 통치하는 것은 관찰되지 않은 위험의 상한선 $ extstyle \hat{B}(x) = U(x) + SB(x) + RG(x)$을 추정하고, 안전 마진 내에서 그 용량 $S(x)$이 $ extstyle \hat{B}(x)$보다 클 때만 행동을 허용하는 것으로 축소됩니다. Aubin의 생존 가능성 이론 (viability theory)에 기반한 extbf{에이전트 생존 가능성 프레임워크 (Agent Viability Framework)}는 문서화된 실패 모드를 개별적으로 필요하고 집합적으로 충분인 세 가지 속성 -- 모니터링 (P1), 예견 (P2), 단조 제한 (monotonic restriction, P3) --을 확립합니다. extbf{RiskGate}는 전용 통계적 추정량 (KL 발산, segment-vs-rest $z$-tests, 순차 패턴 매칭), 실패 시 안전한 단조 파이프라인, Aubin의 규제 맵 (regulation map) 의 인스턴스로 형식화되고 kill-switch 를 최후의 수단으로 포함하는 폐쇄 루프 Autopilot 로 프레임워크를 구현합니다. 스칼라 생존 가능성 지수 $VI(t) \in [-1,+1]$ 와 1 차원 $t^*$ 예측은 거버넌스를 반응형에서 예측형으로 전환합니다. 기여물은 이론적 프레임워크, 참조 구현, 그리고 공개된 에이전트 실패 분류학에 대한 분석적 커버리지입니다. 정량적 경험 평가는 후속 작업의 범위로 설정됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기