침해 사고 대응에서의 AI: 2024년의 기대와 현실

모든 벤더가 AI의 마법을 주장한다

어떤 모니터링 벤더의 웹사이트를 열어도 다음과 같은 문구를 볼 수 있습니다: "AI 기반 침해 사고 탐지!" "ML(머신러닝) 기반 근본 원인 분석!" "지능형 알림!"

수십 개의 AI ops 도구를 평가하고 세 가지를 실제 운영 환경(production)에서 실행해 본 결과, 실제로 작동하는 것과 속임수(snake oil)인 것이 무엇인지 정리해 드립니다.

효과가 있는 것: 이상 탐지 (Anomaly Detection)

ML 기반의 이상 탐지 (Anomaly Detection)는 예측 가능한 패턴을 가진 지표(metrics)에 진정으로 도움이 됩니다:

ML 이상 탐지에 적합한 후보:
  - 요청률 (daily/weekly seasonality, 일간/주간 계절성)
  - CPU 사용량 (트래픽 패턴을 따름)
...

핵심은 충분한 데이터로 학습하는 것입니다. 일간 패턴을 위해서는 최소 2~~3주의 데이터가 필요하며, 주간 계절성 (weekly seasonality)을 위해서는 6~~8주의 데이터가 필요합니다.

효과가 있는 것: 알림 상관관계 분석 (Alert Correlation)

이 부분이 AI가 진정한 가치를 제공하는 지점입니다. 15개의 알림이 동시에 발생할 때, AI는 이를 그룹화하고 발생 가능한 근본 원인(root cause)을 식별할 수 있습니다:

원시 알림 (사람이 보는 것):
  01:15:03  CRITICAL  api-server p99 latency > 2s
  01:15:07  WARNING   postgres connection pool 90%
...

이것이 45분의 조사와 5분의 해결 사이의 차이를 만듭니다.

아직 효과가 없는 것: 자율적 복구 (Autonomous Remediation)

벤더들은 "AI가 문제를 자동으로 해결했습니다!"라는 데모를 보여주는 것을 좋아합니다. 하지만 현실은 다음과 같습니다:

오토스케일링 (Auto-scaling)은 매우 잘 작동합니다 (하지만 그것은 진정한 AI가 아닙니다).
자동 롤백 (Auto-rollback)은 매우 잘 작동합니다 (이 또한 진정한 AI가 아닙니다).
실제 자율적인 근본 원인 분석 (root cause analysis) 및 수정? 운영 환경에서 사용하기에는 충분히 신뢰할 수 없습니다.

저는 세 가지 자율 복구 제품을 테스트했습니다. 결과는 다음과 같습니다:

정확한 진단: 72%
정확한 복구: 45%
상황을 악화시킴: 8%
...

45%의 성공률은 운영 시스템(production systems)에 사용하기에는 충분하지 않습니다. 하지만 사람에게 조치를 제안하는 용도로는 충분합니다.

AI 지원의 최적 지점 (Sweet Spot)

사람만 수행:         AI 제안 + 사람 결정:          AI 자율 수행:
───────────         ────────────────────────────    ──────────────
느리고, 오류 발생 가능성 높음   빠르고, 정확함                  빠르고, 위험함
...

오늘날 가장 좋은 접근 방식은:

AI가 이상 징후를 탐지 (detects the anomaly)
AI가 관련 경고들을 상관 분석 (correlates related alerts)
AI가 가능한 근본 원인을 제안 (suggests probable root cause)
AI가 해결 단계(remediation steps)를 권장
사람이 조치를 승인 (Human approves)
자동화가 실행

평가해야 할 사항

AI Ops 도구를 살펴볼 때, 다음을 질문하십시오:

어떤 데이터가 필요한가? (시작하는 데 6개월 치의 데이터가 필요하다면, 그것은 위험 신호(red flag)입니다)
오탐률(false positive rate)은 얼마인가? (10%를 초과하는 것은 팀에서 무시될 것입니다)
추론 과정을 볼 수 있는가? (블랙박스(Black-box) AI는 침해 사고 대응(incident response)에 무용지물입니다)
기존 도구들과 통합되는가? (기존 시스템을 모두 교체(rip-and-replace)해야 한다면, 포기하십시오)
AI가 틀렸을 때는 어떻게 되는가? (좋은 도구는 신뢰도 점수(confidence scores)를 보여줍니다)

나의 예측

2~3년 안에 AI가 사고의 80%를 자율적으로 처리할 것입니다. 나머지 20% — 즉, 새로운 유형의 장애나 복잡한 연쇄 문제(cascading issues) — 는 여전히 인간의 판단을 필요로 할 것입니다. 하지만 괜찮습니다. 그것들이 바로 흥미로운 문제들이니까요.

AI 지원 침해 사고 대응(AI-assisted incident response)이 실제로 어떻게 작동하는지 보고 싶다면, 저희가 Nova AI Ops에서 구축하고 있는 것을 확인해 보십시오.

작성자: Dr. Samson Tanimawo
BSc · MSc · MBA · PhD
Founder & CEO, Nova AI Ops. https://novaaiops.com

Insights