에이전트 시스템이 신뢰할 수 있게 되기 전의 모니터링
요약
에이전트 시스템의 프로덕션 단계에서 발생하는 구조적 결함을 탐지하기 위한 새로운 모니터링 및 트리아지 방법론을 제시합니다. 분산을 활용해 실행 내, 실행 간, 구조적 범위에서 품질, 적합성, 효율성을 분석하여 인간의 개입을 최소화하는 자동화된 오류 분류 체계를 제안합니다.
핵심 포인트
- 구조적 결함은 기존 작업 수준의 모니터링 신호를 가릴 수 있음
- 분산을 활용한 세 가지 모니터링 범위(실행 내, 간, 구조적) 제안
- 결정론적 트리아지를 통해 발견 사항의 97%를 자동 추적 가능
- 시스템 성숙도에 따른 단계별 모니터링 전환 모델 제시
에이전트 시스템 (Agentic systems)이 프로덕션 단계에 진입하면 일반적으로 부분적으로 통합된 어셈블리 (assemblies)로 작동하며, 이때 실패 양상은 작업 수준의 오류 (task-level errors)가 아닌 구조적 결함 (structural defects)이 지배합니다. 이 정도의 성숙도 단계에서는 작업 수준의 오류 탐지가 불가능할 수 있습니다. 즉, 구조적 실패 모드 (structural failure modes)가 작업 수준의 모니터가 탐지하도록 설계된 신호를 가려버리기 때문입니다.
우리는 분산 (variance)을 특성 신호로 사용하여, 에이전트 시스템 평가를 세 가지 모니터링 범위 (실행 내 (within-run), 실행 간 (cross-run), 구조적 (structural))에서 세 가지 차원 (품질 (quality), 적합성 (suitability), 효율성 (efficiency))으로 분해하는 모니터링 및 트리아지 (triage) 방법론을 제시합니다. 발견된 결과는 FMEA (고장 모드 및 영향 분석)에서 차용한 심각도 분류 (severity classification)를 통해 라우팅되며, 조사가 필요한 하위 집합에 인간의 주의를 집중시킵니다. 우리는 제어된 오류 주입 (error injection)을 통해 120개의 문서 번들 (document bundles)에 걸친 220회의 실행을 포함하는 합성 테스트베드 (synthetic testbed)에서 이를 평가합니다.
세 가지 결과가 도출되었습니다. 첫째, 모니터링 범위가 실패 유형을 결정합니다. 실행 내 (within-run) 모니터는 결정론적 단계 결함 (deterministic stage defects)을 드러내고 (CV = 0.02), 실행 간 (cross-run) 모니터는 확률론적 통합 결과 (stochastic integration consequences)를 드러내며 (CV = 1.25, L2에서 24%), 구조적 (structural) 모니터는 완벽한 일관성으로 통합 격차 (integration gap)를 식별합니다 (CV = 0.00). 둘째, 주입된 작업 수준의 오류는 깨끗한 베이스라인 (clean baselines)과 구별할 수 없었으며, 이는 구조적 결함이 작업 수준의 신호를 가린다는 점을 확인시켜 줍니다. 셋째, 결정론적 트리아지 (Deterministic triage)는 발견 사항의 97%를 자동 추적 (automated tracking)으로 라우팅하여, 가변적 행동을 반영하는 2%만이 인간의 조사 대상으로 남게 합니다.
우리는 1단계 (Stage 1) 증거를 바탕으로, 통합 결함이 해결됨에 따라 모니터링이 구조적 특성 파악에서 오류 탐지로, 다시 신뢰성 추적 (reliability tracking)으로 전환되는 성숙도 단계 모델 (maturity-staging model)을 제안합니다. 이 분류 체계 (taxonomy), CV 기반 범위 특성 파악, 그리고 심각도 모델은 규제 산업의 문서 기반 다단계 에이전트 워크플로 (document-driven, multi-stage agentic workflows)로 아키텍처 측면에서 전이될 수 있으나, 구체적인 보정 (calibrations)은 도메인별로 이루어져야 합니다. 모니터링을 조기에 배포하십시오. 모니터링이 가장 먼저 찾아내는 것이 바로 수정해야 할 가장 중요한 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기