KRCA: Agentic AI를 통한 하이퍼스케일 마이크로서비스 시스템에서의 효율적인 근본 원인 분석 (Root Cause Analysis)
요약
하이퍼스케일 마이크로서비스 시스템의 장애 분석을 위한 엔드 투 엔드 RCA 시스템인 KRCA를 제안합니다. 멀티 에이전트 프레임워크와 인과 그래프를 활용하여 복잡한 시스템의 근본 원인을 신속하고 정확하게 식별합니다.
핵심 포인트
- 다단계 파이프라인을 통한 API 레벨의 서비스 격리 및 드릴다운
- 메모리 증강 멀티 에이전트 기반의 인과 관계 검증 및 보고서 생성
- 기존 베이스라인 대비 성능 31% 이상 향상 및 진단 시간 77.3% 단축
- 실제 Kuaishou 운영 환경에서 6개월 이상 검증 완료
하이퍼스케일 (Hyper-scale) 마이크로서비스 시스템은 대규모 인터넷 기업의 표준 인프라가 되었습니다. 이러한 시스템은 지속적인 개발과 배포를 통해 독립적으로 진화하는 수많은 느슨하게 결합된 (loosely coupled) 마이크로서비스들로 구성됩니다. 이러한 복잡성은 장애를 피할 수 없게 만들며, 사이트 신뢰성 엔지니어 (SREs)가 근본 원인 서비스 (root cause services)를 빠르게 국지화하고 장애 유형을 분류할 수 있도록 돕는 효율적인 근본 원인 분석 (Root Cause Analysis, RCA)을 필요로 합니다. 그러나 기존의 RCA 방법들은 이러한 시스템의 극심한 역동성과 거대한 규모에 적응하는 데 어려움을 겪는 경우가 많습니다. 본 논문에서는 하이퍼스케일 마이크로서비스 시스템을 위해 설계된 엔드 투 엔드 (end-to-end) RCA 시스템인 KRCA를 제시합니다. 방대한 탐색 공간을 관리하기 위해, KRCA는 의심스러운 서비스를 격리하기 위한 API 레벨의 드릴다운 (drilldown)으로 시작하는 다단계 파이프라인을 채택합니다. 그 다음, 이상 지표 (anomalous metrics)로부터 스켈레톤 기반의 인과 그래프 (skeleton-based causal graph)를 인스턴스화하여 높은 재현율 (high-recall)을 가진 구조적 사전 정보 (structural prior)로 활용하며, 이후 메모리 증강 멀티 에이전트 (memory-augmented multi-agent) 프레임워크를 사용하여 인과 관계를 검증하고 최종 장애 보고서를 생성합니다. 구조화된 인과 제약 조건과 멀티 에이전트 추론을 결합함으로써, KRCA는 진단 정확도와 실시간 운영 환경의 효율성 요구 사항 사이의 균형을 맞춥니다. 실험 결과에 따르면, KRCA는 근본 원인 서비스 국지화 및 장애 유형 분류에서 0.88 및 0.79의 AC@1 점수를 달성하였으며, 이는 가장 강력한 베이스라인 (baseline)보다 절대적 이득 측면에서 최소 31% 상회하는 성능입니다. KRCA는 Kuaishou의 운영 환경에 6개월 이상 배포되어 평균 진단 시간을 77.3% 단축시켰습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기