arXiv논문2026. 05. 19. 17:27

Position: 안전한 LLM Agent 배포를 위해 구조적으로 요구되는 3계층 확률적 Assume-Guarantee 아키텍처

요약

본 논문은 단일 계층의 가드레일만으로는 LLM 에이전트의 안전성을 보장하기에 불충분하다고 주장하며, 3계층의 확률적 Assume-Guarantee 아키텍처를 제안합니다. 이 구조는 의미론적 의도, 환경적 타당성, 동적 실행 가능성이라는 세 가지 독립적인 안전 차원을 계약 기반 아키텍처로 분리하여 인증합니다. 이를 통해 시스템 수준의 안전 경계를 도출할 수 있는 이론적 틀을 제공합니다.

핵심 포인트

단일 추상화 계층의 가드레일은 LLM 에이전트의 복합적인 안전 문제를 해결하기에 구조적으로 불충분함
안전성을 위해 의미론적 의도, 환경적 타당성, 동적 실행 가능성을 구분하는 3계층 아키텍처 필요
각 계층은 다음 계층의 가정을 충족하는 확률적 보장을 제공하는 계약 기반 구조를 가져야 함
비독립 동일 분포(non-i.i.d.) 환경에서의 경계 추정 및 멀티 에이전트 확장성 등이 향후 해결 과제로 남음

본 포지션 페이퍼(position paper)는 단일 추상화 계층(abstraction layer) 내에서 LLM 에이전트(LLM agent)의 안전성을 강제하는 것이 단순히 최선이 아닌 수준을 넘어, 배포된 LLM 에이전트에게는 범주적으로 불충분하다고 주장합니다. 이는 에이전트 실행 방식의 구조적 결과이며, 현재 시스템의 우연한 한계가 아닙니다. 안전한 운영을 공동으로 구성하는 세 가지 차원인 의미론적 의도 및 정책 준수(semantic intent and policy compliance), 환경적 타당성(environmental validity), 그리고 동적 실행 가능성(dynamical feasibility)은 각각 실행의 서로 다른 단계에서 가용해지는 엄격히 구별되는 정보 세트에 의존합니다. 단일 가드레일(guardrail)로는 이 세 가지를 모두 인증할 수 없습니다. 우리는 커뮤니티가 계약 기반 아키텍처(contract-based architecture)로 대응해야 한다고 주장하며, 여기서 각 안전 차원은 다음 계층의 가정(assumption)을 충족하는 확률적 보장(probabilistic guarantee)을 가진 독립적으로 인증된 계층에 의해 강제됩니다. 우리는 이러한 아키텍처의 개요를 설명하고, 확률의 연쇄 법칙(chain rule of probability)을 통해 이 아키텍처가 허용하는 구성 가능한 시스템 수준의 안전 경계(safety bounds)를 도출합니다. 이와 배포 가능한 표준 사이에는 세 가지 미결 과제가 남아 있습니다: 비독립 동일 분포(non-i.i.d.) 트레이스(traces)로부터의 경계 추정(bound estimation), 배포 드리프트(deployment drift) 상황에서의 계약의 우아한 성능 저하(graceful degradation), 그리고 멀티 에이전트(multi-agent) 설정으로의 확장이며, 이는 LLM 에이전트 런타임 보증(runtime assurance)에서 가장 중요한 미완의 과제입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Position: 안전한 LLM Agent 배포를 위해 구조적으로 요구되는 3계층 확률적 Assume-Guarantee 아키텍처

요약

핵심 포인트

댓글