Kubernetes 장애를 위한 감사 가능한 그래프 유도 근본 원인 분석 (Auditable Graph-Guided Root Cause
요약
Kubernetes 장애 진단을 위해 LLM 추론과 그래프 탐색을 결합한 Graph Traversal Agent를 제안합니다. 타입화된 증거 그래프를 활용하여 결정론적인 도구 연산과 검증 단계를 거침으로써 신뢰할 수 있는 근본 원인 분석(RCA)을 수행합니다.
핵심 포인트
- LLM과 그래프 탐색을 결합한 RCA 에이전트 제시
- 타입화된 증거 그래프를 통한 결정론적 추론 및 검증
- ITBench 기준 근본 원인 엔티티 F1 점수 대폭 향상
- 감사 가능한 추론 과정을 위한 경량 검증 프레임워크 포함
Kubernetes 장애는 근본 원인 (Root-cause) 시스템이 보고하는 이점이 시나리오별 지름길이 아닌 장애 증거로부터 도출될 때만 신뢰성 있게 진단될 수 있습니다. 본 논문에서는 LLM 추론과 특화된 도구들을 결합한 그래프 유도 RCA (Root Cause Analysis, 근본 원인 분석) 에이전트인 Graph Traversal Agent를 제시합니다. 이 모델은 타입화된 증거 그래프 (Typed evidence graph) 위에서 추론하며, 결정론적인 그래프 및 도구 연산이 증거를 수집하고, 탐색 범위를 제한하며, 제안된 판결을 검증합니다. 우리는 읽기 전용 증거 수집, 전파 인지 진단 (Propagation-aware diagnosis), 제한된 실행, 그리고 독립적으로 검증된 판결을 포함한 운영 제약 사항들을 타입화된 장애 그래프 (Typed incident graph), LangGraph 탐색 상태 머신 (Traversal state machine), 그리고 별도의 검증 단계로 매핑합니다. 하나의 고정된 qwen-plus 판독기(Judge)로 점수를 매긴 ITBench 스냅샷에 대해, 감사된 시스템은 23개 시나리오 공통 부분 집합에서 동일 시스템의 이전 반복 버전 대비 근본 원인 엔티티 (Root-cause-entity) F1 점수를 0.6087에서 0.9130으로 높였습니다. 프롬프트 수준의 절제 연구 (Ablation study)를 통해 프롬프트 튜닝으로 인한 이득과 시나리오별 힌트가 제거된 후에도 유지되는 이득을 분리했습니다. 힌트가 제거된 프롬프트 (Stripped-prompt) 설정은 19개 시나리오 부분 집합에서 0.6958의 F1을 유지했습니다. 유지된 이득은 근본 원인이 증거 그래프에 이미 존재하는 주입된 결함 객체인 ChaosMesh 시나리오에 집중되어 있으므로, 우리는 이를 광범위한 교차 클러스터 RCA 증거라기보다는 벤치마크 결합형 (Benchmark-coupled)으로 보고합니다. 동일 판독기 비교, 프롬프트 수준의 절제 연구, 연쇄 소스 확인 (Cascade-source checking), 그리고 텔레메트리 누출 없는 테스트 (Telemetry no-leak test)를 포함한 경량 검증을 통해 주장을 '지원됨 (Supported)', '보류 중 (Pending)', 또는 '범위 외 (Out of scope)'로 표시합니다. 본 연구의 범위는 ITBench OpenTelemetry-demo 스냅샷으로 한정합니다. 라이브 클러스터 시험은 엔지니어링 스트레스 테스트 역할을 했으나, 경보 상태와 트레이스 (Trace) 가용성이 통제된 점수 산출을 위해 충분히 안정적으로 유지되지 않았으므로, 운영 준비성 (Production-readiness)이나 평균 복구 시간 (MTTR, Mean-time-to-repair)에 대한 주장은 하지 않습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기