KRCA: Agentic AI를 통한 하이퍼스케일 마이크로서비스 시스템에서의 효율적인 근본 원인 분석 (Root Cause Analysis)

하이퍼스케일 (Hyper-scale) 마이크로서비스 시스템은 대규모 인터넷 기업의 표준 인프라가 되었습니다. 이러한 시스템은 지속적인 개발과 배포를 통해 독립적으로 진화하는 수많은 느슨하게 결합된 (loosely coupled) 마이크로서비스들로 구성됩니다. 이러한 복잡성은 장애를 피할 수 없게 만들며, 사이트 신뢰성 엔지니어 (SREs)가 근본 원인 서비스 (root cause services)를 빠르게 국지화하고 장애 유형을 분류할 수 있도록 돕는 효율적인 근본 원인 분석 (Root Cause Analysis, RCA)을 필요로 합니다. 그러나 기존의 RCA 방법들은 이러한 시스템의 극심한 역동성과 거대한 규모에 적응하는 데 어려움을 겪는 경우가 많습니다. 본 논문에서는 하이퍼스케일 마이크로서비스 시스템을 위해 설계된 엔드 투 엔드 (end-to-end) RCA 시스템인 KRCA를 제시합니다. 방대한 탐색 공간을 관리하기 위해, KRCA는 의심스러운 서비스를 격리하기 위한 API 레벨의 드릴다운 (drilldown)으로 시작하는 다단계 파이프라인을 채택합니다. 그 다음, 이상 지표 (anomalous metrics)로부터 스켈레톤 기반의 인과 그래프 (skeleton-based causal graph)를 인스턴스화하여 높은 재현율 (high-recall)을 가진 구조적 사전 정보 (structural prior)로 활용하며, 이후 메모리 증강 멀티 에이전트 (memory-augmented multi-agent) 프레임워크를 사용하여 인과 관계를 검증하고 최종 장애 보고서를 생성합니다. 구조화된 인과 제약 조건과 멀티 에이전트 추론을 결합함으로써, KRCA는 진단 정확도와 실시간 운영 환경의 효율성 요구 사항 사이의 균형을 맞춥니다. 실험 결과에 따르면, KRCA는 근본 원인 서비스 국지화 및 장애 유형 분류에서 0.88 및 0.79의 AC@1 점수를 달성하였으며, 이는 가장 강력한 베이스라인 (baseline)보다 절대적 이득 측면에서 최소 31% 상회하는 성능입니다. KRCA는 Kuaishou의 운영 환경에 6개월 이상 배포되어 평균 진단 시간을 77.3% 단축시켰습니다.

Insights

KRCA: Agentic AI를 통한 하이퍼스케일 마이크로서비스 시스템에서의 효율적인 근본 원인 분석 (Root Cause Analysis)

요약

핵심 포인트

댓글

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달