NetCause: 대규모 네트워크의 근본 원인 분석을 위한 반사실적 학습
요약
본 연구는 대규모 네트워크의 결함 전파를 포착하고, 고객 영향도를 근본 원인에 인과적으로 귀속시키는 NetCause라는 자기 지도 학습 기반 프레임워크를 제안합니다. 이 모델은 네트워크 사고를 그래프-시간 프로세스로 모델링하고 반사실적 시뮬레이션을 활용하여 후보 근본 원인을 순위화합니다. 실제 클라우드 서비스 데이터를 사용해 개발되었으며, 기존 방식 대비 높은 정확도 향상을 보였습니다.
핵심 포인트
- 네트워크 사고를 그래프-시간 프로세스로 모델링함.
- 반사실적 시뮬레이션으로 근본 원인 후보들을 순위화함.
- 실제 클라우드 네트워크 데이터로 학습 및 검증됨.
- 기존 규칙 기반 방식 대비 16.1%의 정확도 향상을 달성함.
학습된 모델이 대규모 네트워크를 통해 결함이 어떻게 전파되는지 포착하고, 이 지식을 활용하여 고객 영향도를 그 근본적인 원인에 인과적으로 귀속시킬 수 있을까요? 기존의 근본 원인 분석(root cause analysis) 기법들은 종종 정적 규칙, 상관관계 휴리스틱 또는 토폴로지 국소 추론에 의존하며, 결함이 복잡한 물리적 및 논리적 종속성을 가로질러 전파되는 동적 환경에서는 일반화하는 데 어려움을 겪습니다. 본 연구에서는 네트워크 사고를 그래프-시간(graph-temporal) 프로세스로 모델링하고 반사실적 시뮬레이션(counterfactual simulation)을 사용하여 후보 근본 원인들을 순위화하는, 자기 지도 학습 기반 프레임워크인 NetCause를 제시합니다. 이 접근 방식은 해석 가능한 근본 원인 가설의 순위를 제공하며, 운영자가 정의한 완화 및 복구 조치와 자연스럽게 통합됩니다. 우리는 선도적인 클라우드 서비스 제공업체의 프로덕션 네트워크에서 6개월 동안 수집된 1,500개 이상의 사고 데이터를 사용하여 모델을 학습시켰고, 31개의 전문가 레이블링된 사고 데이터로 평가했습니다. NetCause는 운영 결정에 가장 관련성이 높은 영역에서 근본 원인 순위 품질을 지속적으로 개선하여, 규칙 기반 휴리스틱 기준선 대비 16.1%의 정확도 향상을 달성했습니다. 학습 과정은 계산 집약적이지만, 추론(inference) 단계는 가볍고 사고당 GPU 실행 시간 몇 초만 필요합니다 (일반적인 원격 측정 수집 지연 시간보다 훨씬 적습니다).
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기