arXiv논문2026. 06. 09. 12:00

하이퍼스케일에서의 자율적 장애 해결: 네트워크 운영을 위한 에이전트 기반 AI 아키텍처

요약

하이퍼스케일 클라우드 네트워크의 복잡한 장애를 해결하기 위한 멀티 에이전트 기반 AI 아키텍처를 제안합니다. 계층적 에이전트 분해와 도구 호출 방식을 통해 인간의 개입 없이 장애를 탐지하고 복구하는 자율 운영 프레임워크를 다룹니다.

핵심 포인트

멀티 에이전트 오케스트레이션을 통한 자율적 장애 대응
계층적 에이전트 분해 및 기술 기반 도구 호출 적용
운영 런북의 구조화된 지식 인코딩 활용
실제 클라우드 환경에서 90% 이상의 자율 해결률 달성
안전한 운영을 위한 점진적 자율성 및 롤백 메커니즘

하이퍼스케일 (Hyperscale) 규모의 클라우드 네트워크 인프라는 전통적인 인간 중심의 장애 대응 방식으로는 장애의 양, 속도 및 복잡성을 따라갈 수 없는 독특한 운영 과제를 안겨줍니다. 본 논문은 대규모 네트워크 운영에서 자율적인 장애 해결을 위한 에이전트 기반 AI (Agentic AI) 아키텍처를 제시합니다. 우리의 시스템은 특화된 AI 에이전트들이 인간의 개입 없이 네트워크 장애를 탐지, 진단 및 복구하기 위해 협업하는 멀티 에이전트 오케스트레이션 (Multi-agent orchestration) 프레임워크를 채택합니다. 우리는 계층적 에이전트 분해 (Hierarchical agent decomposition), 표준화된 프로토콜을 통한 기술 기반 도구 호출 (Skills-based tool invocation), 운영 런북 (Runbooks)으로부터의 구조화된 지식 인코딩 (Structured knowledge encoding), 안전 경계가 포함된 점진적 자율성 (Progressive autonomy), 그리고 폐쇄 루프 검증 (Closed-loop verification)을 포함한 아키텍처 원칙을 설명합니다. 이 아키텍처는 주요 클라우드 제공업체의 운영 환경에 배포되었으며, 계층적 권한 부여 및 롤백 (Rollback) 메커니즘을 통해 안전 보장을 유지하면서도 일반적인 장애 범주에 대해 90%를 초과하는 자율 해결률을 달성할 수 있음을 입증했습니다. 우리는 설계상의 트레이드오프 (Tradeoffs), 실패 모드 (Failure modes), 그리고 대규모 환경에서 자율 AI 에이전트를 운영하며 얻은 교훈에 대해 논의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

하이퍼스케일에서의 자율적 장애 해결: 네트워크 운영을 위한 에이전트 기반 AI 아키텍처

요약

핵심 포인트

댓글