arXiv논문2026. 04. 28. 21:47

관찰할 수 없는 것을 통제하기: 자율 AI 에이전트를 위한 적응형 런타임 거버넌스

요약

본 논문은 자율 AI 에이전트가 코드 변경 없이도 발생할 수 있는 행동 드리프트, 적대자 적응 등으로 인한 안전성 문제를 다루기 위해 '정보적 생존 가능성 원칙(Informational Viability Principle)'을 제안합니다. 이 원칙에 따라 에이전트의 행동은 추정된 위험 상한선($ ext{B}(x)$)보다 큰 안전 마진 내에서만 허용됩니다. 이를 구현하는 'RiskGate' 프레임워크는 모니터링, 예견, 단조 제한이라는 세 가지 속성을 기반으로 하며, 예측형 거버넌스(Predictive Governance)를 제공하여 AI의 신뢰성과 안전성을 강화합니다.

핵심 포인트

자율 AI 에이전트는 코드 변경 없이도 드리프트나 적응 등으로 인해 안전성이 저하될 수 있다.
제안된 '정보적 생존 가능성 원칙'은 추정된 위험 상한선 대비 충분한 안전 마진을 확보할 때만 행동을 허용한다.
프레임워크는 모니터링, 예견(forecasting), 단조 제한이라는 세 가지 속성을 통해 에이전트의 안정적인 운영을 보장한다.
RiskGate는 KL 발산 등 통계적 추정량과 Aubin의 규제 맵을 활용하여 폐쇄 루프 Autopilot 시스템으로 구현된다.
스칼라 생존 가능성 지수($VI(t)$)와 예측은 거버넌스를 반응형에서 예측형으로 전환하는 핵심 요소이다.

자율 AI 에이전트는 코드 변경 없이도 행동의 드리프트 (drift), 적대자의 적응, 결정 패턴의 변화 등으로 인해 완전히 승인된 상태에서도 안전하지해질 수 있습니다. 우리는 extbf{정보적 생존 가능성 원칙 (Informational Viability Principle)}을 제안합니다. 이 원칙에 따르면 에이전트를 통치하는 것은 관찰되지 않은 위험의 상한선 $ extstyle \hat{B}(x) = U(x) + SB(x) + RG(x)$을 추정하고, 안전 마진 내에서 그 용량 $S(x)$이 $ extstyle \hat{B}(x)$보다 클 때만 행동을 허용하는 것으로 축소됩니다. Aubin의 생존 가능성 이론 (viability theory)에 기반한 extbf{에이전트 생존 가능성 프레임워크 (Agent Viability Framework)}는 문서화된 실패 모드를 개별적으로 필요하고 집합적으로 충분인 세 가지 속성 -- 모니터링 (P1), 예견 (P2), 단조 제한 (monotonic restriction, P3) --을 확립합니다. extbf{RiskGate}는 전용 통계적 추정량 (KL 발산, segment-vs-rest $z$-tests, 순차 패턴 매칭), 실패 시 안전한 단조 파이프라인, Aubin의 규제 맵 (regulation map) 의 인스턴스로 형식화되고 kill-switch 를 최후의 수단으로 포함하는 폐쇄 루프 Autopilot 로 프레임워크를 구현합니다. 스칼라 생존 가능성 지수 $VI(t) \in [-1,+1]$ 와 1 차원 $t^*$ 예측은 거버넌스를 반응형에서 예측형으로 전환합니다. 기여물은 이론적 프레임워크, 참조 구현, 그리고 공개된 에이전트 실패 분류학에 대한 분석적 커버리지입니다. 정량적 경험 평가는 후속 작업의 범위로 설정됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

관찰할 수 없는 것을 통제하기: 자율 AI 에이전트를 위한 적응형 런타임 거버넌스

요약

핵심 포인트

댓글