관리되는 멀티 에이전트 런타임에서의 승인 제어로서의 검증 게이트 기반 완성 (Verify-Gated Completion): 경계 아키텍처 사례

멀티 에이전트 시스템 (Multi-agent systems)이 짧은 상호작용에서 전문화된 역할과 지속적인 상태 (Persistent state)를 가진 도구 사용 워크플로 (Tool-using workflows)로 이동함에 따라, 완성 (Completion)은 순수하게 생성적인 문제라기보다 런타임 제어 (Runtime-control) 문제로 변모하고 있습니다. 본 프리프린트 (Preprint)는 관리되는 멀티 에이전트 런타임 (Governed multi-agent runtimes)을 위한 승인 제어 (Admission-control) 패턴으로서 검증 게이트 기반 완성 (Verify-gated completion)을 연구합니다. 에이전트 (Agents)는 완성을 제안할 수 있지만, 읽기 전용 검증기 (Read-only verifier)가 해당 주장이 승인될지 여부를 결정합니다. 모호하거나 증거가 약한 사례는 실패 시 차단 (Fail-closed) 방식으로 해결되며, 패킷화된 상태 (Packetized state)와 이벤트 추적 (Event traces)은 감사 경로 (Audit path)를 보존합니다. 본 연구에서는 하나의 경계 참조 구현체 (Bounded reference implementation)를 조사하며, 공개된 증거가 감사 가능한 검증 게이트 기반 완성에 대해 무엇을 뒷받침할 수 있는지 질문합니다. 공개된 검증 완료 슬라이스 (Verify-completed slice)에서, 알려진 결과가 있는 호출된 이벤트 (Invoked-event)의 검증 성공 비율은 1,791/1,800 = 99.5%였습니다. 이는 호출된 검증 이벤트에 대한 회계 측정치이며, 작업 완료율 (Task-completion), 생산 신뢰도 (Production-reliability), 또는 벤치마크 성공률 (Benchmark-success rate)이 아닙니다. 작업 수준의 검증 커버리지 (Task-level verify coverage)는 계산할 수 없습니다. 1,762/1,801개의 행은 하나의 대량 보고 클러스터 (High-volume reporting cluster)에서 발생했으며, 운영 분류 (Production-classified)된 이벤트는 단 17개뿐이었습니다. 섀도우 정책/거버넌스 검증기 (Shadow Policy/Governance Verifier) 평가 결과, 규칙 일치율 (Rule agreement)은 1,526/1,548 = 98.58%를 기록했고, 진행 가능 (Safe-to-proceed) 예측 중 허위 성공 (False-success)은 0/1,526이었으며, 차단 정밀도 (Blocked precision)는 2/518 = 0.39%로 나타나 여전히 권고 수준에 머물러 있습니다. 이 증거는 좁은 범위의 결론을 뒷받침합니다: 관찰된 조건 하에서, 읽기 전용 검증 게이트 (Read-only verify gate)와 패킷화된 승인 기록 (Packetized admission records)은 완성 결정을 조사 가능하게 만들고 실패 시 차단 (Fail-closed)되도록 했습니다. 배포된 운영 (Deployed operation), 안전 보장 (Safety guarantees), 결과 이득 (Outcome gains), 작업 수준 커버리지 (Task-level coverage), 복구 효과성 (Recovery effectiveness), 또는 외부 타당성 (External validity)에 대한 주장은 범위 외(Outside scope)로 남습니다.

Insights

관리되는 멀티 에이전트 런타임에서의 승인 제어로서의 검증 게이트 기반 완성 (Verify-Gated Completion): 경계 아키텍처 사례

요약

핵심 포인트

댓글

Rivian Automotive, 주당 7,500만 주 공모를 통해 12억 달러 유치 가격 발표

Netflix, Disney, Alphabet의 YouTube가 2030년 및 2034년 월드컵 미국 중계권에 주목: 보고서

AI 코딩 에이전트에 '프로그래밍 규율'을 갖춘 6가지 스킬 파이프라인 장착: 코드 변경 시 발생하는 문제 해결

Apple이 2027년 iPad Pro 및 MacBook Pro에 주요 업데이트를 계획 중: 성장을 재점화하기에는 부족하다

Netflix, Disney, Alphabet의 YouTube가 2030년 및 2034년 월드컵 미국 중계권에 주목: 보고서

AI 코딩 에이전트에 '프로그래밍 규율'을 갖춘 6가지 스킬 파이프라인 장착: 코드 변경 시 발생하는 문제 해결

Apple이 2027년 iPad Pro 및 MacBook Pro에 주요 업데이트를 계획 중: 성장을 재점화하기에는 부족하다