관리되는 멀티 에이전트 런타임에서의 승인 제어로서의 검증 게이트 기반 완성 (Verify-Gated Completion): 경계 아키텍처 사례
요약
멀티 에이전트 시스템의 신뢰성을 높이기 위해 읽기 전용 검증기가 에이전트의 제안을 승인하거나 차단하는 '검증 게이트 기반 완성(Verify-Gated Completion)' 패턴을 제안합니다. 연구 결과, 검증 성공률 99.5%와 규칙 일치율 98.58%를 기록하며 결정 과정의 조사 가능성과 실패 시 차단(Fail-closed) 메커니즘의 유효성을 입증했습니다.
핵심 포인트
- 에이전트의 제안을 독립적인 읽기 전용 검증기가 승인하는 승인 제어(Admission-control) 패턴 연구
- 패킷화된 상태와 이벤트 추적을 통해 감사 경로(Audit path)를 보존하여 결정 과정의 투명성 확보
- 실험 결과, 검증 이벤트에 대해 99.5%의 높은 검증 성공률과 98.58%의 규칙 일치율 확인
- 본 연구는 작업 완료율이나 생산 신뢰도가 아닌, 검증 이벤트에 대한 회계 측정치에 집중함
멀티 에이전트 시스템 (Multi-agent systems)이 짧은 상호작용에서 전문화된 역할과 지속적인 상태 (Persistent state)를 가진 도구 사용 워크플로 (Tool-using workflows)로 이동함에 따라, 완성 (Completion)은 순수하게 생성적인 문제라기보다 런타임 제어 (Runtime-control) 문제로 변모하고 있습니다. 본 프리프린트 (Preprint)는 관리되는 멀티 에이전트 런타임 (Governed multi-agent runtimes)을 위한 승인 제어 (Admission-control) 패턴으로서 검증 게이트 기반 완성 (Verify-gated completion)을 연구합니다. 에이전트 (Agents)는 완성을 제안할 수 있지만, 읽기 전용 검증기 (Read-only verifier)가 해당 주장이 승인될지 여부를 결정합니다. 모호하거나 증거가 약한 사례는 실패 시 차단 (Fail-closed) 방식으로 해결되며, 패킷화된 상태 (Packetized state)와 이벤트 추적 (Event traces)은 감사 경로 (Audit path)를 보존합니다. 본 연구에서는 하나의 경계 참조 구현체 (Bounded reference implementation)를 조사하며, 공개된 증거가 감사 가능한 검증 게이트 기반 완성에 대해 무엇을 뒷받침할 수 있는지 질문합니다. 공개된 검증 완료 슬라이스 (Verify-completed slice)에서, 알려진 결과가 있는 호출된 이벤트 (Invoked-event)의 검증 성공 비율은 1,791/1,800 = 99.5%였습니다. 이는 호출된 검증 이벤트에 대한 회계 측정치이며, 작업 완료율 (Task-completion), 생산 신뢰도 (Production-reliability), 또는 벤치마크 성공률 (Benchmark-success rate)이 아닙니다. 작업 수준의 검증 커버리지 (Task-level verify coverage)는 계산할 수 없습니다. 1,762/1,801개의 행은 하나의 대량 보고 클러스터 (High-volume reporting cluster)에서 발생했으며, 운영 분류 (Production-classified)된 이벤트는 단 17개뿐이었습니다. 섀도우 정책/거버넌스 검증기 (Shadow Policy/Governance Verifier) 평가 결과, 규칙 일치율 (Rule agreement)은 1,526/1,548 = 98.58%를 기록했고, 진행 가능 (Safe-to-proceed) 예측 중 허위 성공 (False-success)은 0/1,526이었으며, 차단 정밀도 (Blocked precision)는 2/518 = 0.39%로 나타나 여전히 권고 수준에 머물러 있습니다. 이 증거는 좁은 범위의 결론을 뒷받침합니다: 관찰된 조건 하에서, 읽기 전용 검증 게이트 (Read-only verify gate)와 패킷화된 승인 기록 (Packetized admission records)은 완성 결정을 조사 가능하게 만들고 실패 시 차단 (Fail-closed)되도록 했습니다. 배포된 운영 (Deployed operation), 안전 보장 (Safety guarantees), 결과 이득 (Outcome gains), 작업 수준 커버리지 (Task-level coverage), 복구 효과성 (Recovery effectiveness), 또는 외부 타당성 (External validity)에 대한 주장은 범위 외(Outside scope)로 남습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기