근본 원인 도출과 근본 원인 설명을 분리하는 위상 인식 및 메모리 중심 아키텍처
요약
마이크로서비스 장애 대응을 위해 근본 원인 도출과 설명을 분리하는 OPS C ORTEX 아키텍처를 제안합니다. 운영 메모리를 4개 계층으로 구조화하고, 결정론적 계산과 LLM을 결합한 멀티 에이전트 방식을 통해 장애 진단의 정확성을 높입니다.
핵심 포인트
- 근본 원인 도출(결정론적 계산)과 설명(LLM)의 분리
- 운영 메모리(Operational Memory) 중심의 4계층 아키텍처 제안
- 멀티 에이전트 프로토타입 OPS C ORTEX를 통한 장애 진단
- 이커머스 벤치마크를 통한 시스템 검증 완료
현대의 마이크로서비스 (microservice) 배포는 탐지는 쉽지만 설명하기는 어려운 방식으로 장애가 발생합니다. 결함이 서비스 의존성(service dependencies)을 따라 전파될 때, 경고(alerts)가 홍수처럼 쏟아지고, 대시보드는 늘어나며, 서비스 간의 관계를 이해하는 희소한 자원인 엔지니어는 모니터링 스택이 폐기해 버린 문맥(context)을 재구성하는 데 소모됩니다. 우리는 자율 운영 (autonomous operations)에 부족한 요소가 더 나은 이상 탐지기 (anomaly detector)나 더 큰 언어 모델 (language model)이 아니라, 운영 메모리 (operational memory)라고 주장합니다. 즉, 시스템이 정상적으로 어떻게 작동하는지, 구성 요소들이 서로 어떻게 의존하는지, 그리고 이전에 어떻게 장애가 발생했는지에 대한 지속적이고 구조화된 표현이 필요합니다. 우리는 이 메모리를 4개의 계층으로 조직하고, 이 분야에서 흔히 혼동하는 두 가지 작업인 '근본 원인 도출 (deriving a root cause)'과 '근본 원인 설명 (explaining it)'을 분리하는 데 사용하는 작동 가능한 멀티 에이전트 (multi-agent) 프로토타입인 OPS C ORTEX를 제시합니다. 근본 원인은 학습된 의존성 그래프 (dependency graph)와 임계값 초과 (threshold crossings)의 시간적 순서로부터 결정론적 (deterministically)으로 계산됩니다. 그 후 대규모 언어 모델 (LLM)은 시스템이 이미 수집한 증거를 사용하여 설명, 확인 및 권고를 수행하도록 요청받습니다. 우리는 기록된 두 가지 실제 운영 환경의 연쇄 장애 (cascading failures) 사례를 통해 설계를 정당화하고, 관측성 (observability), 이상 탐지 (anomaly detection), 그래프 기반 국소화 (graph-based localization), LLM 지원 진단 (LLM-assisted diagnosis)에 관한 대표적인 문헌을 검토하며, 각 아키텍처 선택이 해당 사고들이 보여주는 장애 모드 (failure mode)에 어떻게 직접적으로 매핑되는지 보여줍니다. 이 프로토타입은 8가지 주입 가능한 장애 시나리오가 포함된 계측된 이커머스 (e-commerce) 벤치마크를 통해 검증되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기