10년간의 탐지 로직 작성 경험이 Mythos Exploit 수치를 덜 두렵게 만드는 이유

Anthropic의 마케팅 팀은 자사의 새로운 Mythos 사이버 보안 모델과 해당 모델이 찾아내는 취약점의 양을 홍보해 왔습니다. Mozilla에 따르면, 이러한 발견들은 타당한 것으로 보입니다. 만약 이러한 속도가 단기적으로 유지된다면, 업계 내부와 외부의 많은 이들이 타당한 이유로 우려하며 이것이 새로운 표준(new normal)이 될지 의문을 품고 있습니다.

새로운 Exploit 출시 속도는 항상 방어자의 탐지 작성 능력을 훨씬 앞질러 왔습니다

탐지 로직(detection logic)을 작성하는 것은 언제나 두더지 잡기 게임과 같았습니다. 우리 업계의 기초적인 글 중 하나인 David Bianco의 Pyramid of Pain은 바로 이 점을 주장합니다. 개별 IoC(Indicators of Compromise)보다는 행동 기반 탐지(behavioral detection)에 의존하고, Exploit(익스플로잇)에 의존하는 이유는 새로운 Exploit 공개 속도가 방어자의 규칙 작성 능력을 항상 앞질러 왔기 때문입니다. 일회성 Exploit 커버리지는 탐지 엔지니어들이 대부분의 시간을 할애하는 영역이 아닙니다. 물론 사람들은 여전히 그 작업을 수행합니다. ET Open 규칙 세트는 과거의 CVE들을 위해 얼마나 많은 개별 규칙이 존재하는지 보여주는 괜찮은 사례입니다. 규칙은 일반적으로 주요 취약점, 귀하의 산업군을 대상으로 활발히 사용되는 모든 것, 그리고 자동화를 통해 작업 비용을 낮출 수 있는 소수의 사례를 위해 작성됩니다.

공격자들에게 Zero-Day는 필요하지 않았습니다

위협 행위자들은 목표를 침해하기 위해 Zero-Day(제로 데이)를 필요로 하지 않았습니다. 오래된 Exploit들은 수십 년 동안 문제없이 작동해 왔습니다. 오늘날 가장 널리 퍼진 초기 침투 기술 중 하나인 ClickFix는 Zero-Day에 전혀 의존하지 않습니다. 대신 사용자를 속여 PowerShell이나 실행(Run) 대화 상자에 악성 코드를 붙여넣고 직접 실행하도록 유도합니다.

탐지 로직은 Exploit과 1대1로 매칭되지 않습니다

탐지 로직을 작성해 본 적이 없는 분들을 위해, 왜 행동 기반 탐지가 개별 Exploit 및 IoC에 대한 시그니처 기반 헌팅(signature-based hunting)보다 우월한지에 대한 제가 가장 좋아하는 예시는 Microsoft Office의 RCE(Remote Code Execution, 원격 코드 실행) 버그입니다. Word 및 Excel과 같은 Office 제품들은 지난 20년 동안 업계에서 가장 영향력 있고 가장 남용되는 취약점들을 만들어냈으며, 1,000개 이상의 별개 RCE CVE가 발견되었고 그 수는 계속 늘어나고 있습니다.

이러한 취약점들의 만연함과 그 영향력에도 불구하고, 이들의 남용을 탐지하는 것은 생각보다 훨씬 덜 어렵습니다. 예를 들어, 2022년에 Microsoft는 인터넷에서 유입되어 Mark of the Web (MOTW) 태그가 지정된 Office 문서가 더 이상 매크로 (macros)를 실행하지 않도록 기본 설정을 변경했으며, 사용자가 문서에서 마우스 오른쪽 버튼을 클릭하여 '차단 해제(Unblock)'를 선택하거나 PowerShell에서 Unblock-File을 실행하도록 요구했습니다. 누군가는 이를 탐지 (detection)라기보다는 취약점 완화 (exploit mitigation) 또는 경화 (hardening)라고 생각할 수도 있겠지만, 저는 동의하지 않습니다. 탐지 엔지니어 (detection engineer)의 관점에서 보면, Microsoft가 이 변경 사항을 적용하기 전에도 저는 동일한 동작에 대해 커스텀 탐지기 (custom detector)를 작성할 수 있었습니다. Microsoft가 이를 구현한 이후, 매크로 기반의 악성 문서 전달은 크게 감소했습니다.

이러한 변화는 동작 프로파일링 (profiling behaviors)을 용이하게 만드는 현대적인 EDR 도구와 결합되어, Office 문서가 자식 프로세스 (child process)를 생성하는 것과 같은 동작에 대한 베이스라인 (baselines) 및 탐지 규칙을 구축할 수 있게 해줍니다. 이는 Office 문서가 코드를 실행할 때 나타나는 전형적인 특징입니다. 이전의 동작과 마찬가지로, 이는 사용된 익스플로잇 (exploit)과 관계없이 Office 문서를 통해 성공적인 코드 실행 (code execution)을 달성하려는 위협 행위자 (threat actor)의 능력을 극적으로 감소시킵니다.

이 두 가지 동작을 중첩시키면 성공적인 코드 실행은 기하급수적으로 더 어려워집니다. 거기서 더 나아가, 웹에서 다운로드한 .ps1 파일을 PowerShell이 실행하는 것과 같은 레이어를 더 쌓을 수 있습니다. 탐지 엔지니어로서 저의 업무는 충분한 동작들을 중첩시켜, 하나가 트리거되었을 때 다른 동작들이 그것이 실제로 악성임을 확신할 수 있도록 하는 것입니다. 이는 일반적으로 각 새로운 탐지가 악성 활동의 누적 가능성을 높이는 리스크 기반 경보 (Risk-Based Alerting) 모델의 점수와 연결함으로써 이루어집니다.

머신러닝 (Machine Learning)과 이상 탐지 (Anomaly Detection)가 정답이 아닐 가능성이 높은 이유

블루 팀(Blue Team)에게 하늘이 무너지고 있다는 헤드라인이 쏟아지면서 기업들은 혼란에 빠져 있으며, 숙련된 탐지 팀들도 예외는 아닙니다. 대부분은 개별적인 행위 기반 탐지기(Behavioral Detectors)에서 머신러닝 (Machine Learning) 기반 모델로 전환하는 방법을 찾고 있습니다. 저는 이것이 실수라고 생각하며, 이를 뒷받침하는 연구도 존재합니다.

보안 연구 커뮤니티의 두 논문은 현재의 AI 열풍이 불기 훨씬 전부터 머신러닝 (ML) 기반 침입 탐지(Intrusion Detection)에 반대하는 근거를 제시했습니다 (SOC에서 근무해 본 사람이라면 연구 논문 없이도 이미 알고 있을 사실입니다):

Robin Sommer와 Vern Paxson의 “Outside the Closed World: On Using Machine Learning for Network Intrusion Detection”
Stefan Axelsson의 “The Base-Rate Fallacy and the Difficulty of Intrusion Detection”

Sommer와 Paxson의 비판은 다섯 가지 포인트로 구성되지만, 여기서 정말 중요한 것은 세 가지뿐입니다.

첫 번째는 머신러닝 (ML)은 분류 (Classification)에 능숙하다는 점입니다. 즉, 입력값이 알려진 여러 카테고리 중 어디에 속하는지를 결정하는 데 탁월합니다. 하지만 이상 탐지 (Anomaly Detection)는 이 문제를 뒤집습니다. 정상 트래픽을 학습시킨 뒤, 이에 부합하지 않는 모든 것을 플래그(Flag)로 표시하도록 시스템에 요청하는 방식입니다. 그들이 인용한 교과서에서는 이를 *폐쇄 세계 가정 (Closed-world assumption)*이라고 부르며, 실제 문제에서는 별로 유용하지 않다고 명시하고 있습니다. 스팸 분류 (Spam classification)가 작동하는 이유는 스팸과 정상 메일(Ham) 모두를 학습시킬 수 있기 때문입니다. 추천 시스템이 작동하는 이유는 새로운 것이 아니라 유사한 항목을 표면화하기 때문입니다. 네트워크 침입 탐지는 이와 정반대 형태의 문제입니다.

두 번째는 네트워크 트래픽의 다양성입니다. 실제 트래픽은 운영상 중요한 모든 시간 척도에서 헤비 테일(Heavy-tailed) 분포를 보이며, 버스트(Bursty)하고 가변적입니다. 학습의 기준이 될 안정적인 "정상(Normal)" 상태란 존재하지 않습니다. 3월에 성능이 좋았던 모델이라도 애플리케이션 구성이 바뀌거나, 인력이 이동하거나, 새로운 SaaS가 도입되거나, 주요 공휴일로 인해 사용자 행동이 변함에 따라 6월쯤에는 드리프트(Drift) 현상이 나타나기 시작할 것입니다. 이러한 드리프트는 오탐률 (False Positive Rate)을 높이는데, Axelsson은 이것이 바로 당신이 절대로 높여서는 안 되는 요소라고 말합니다.

세 번째는 그들이 **의미론적 격차 (semantic gap)**라고 부르는 것입니다. 이상 탐지기 (anomaly detector)가 무언가를 올바르게 식별하더라도, 그것은 분석가에게 해당 이벤트가 특이하다는 사실만을 알려줄 뿐, 그것이 *악의적 (malicious)*이라거나, 무엇을 하려고 했는지, 혹은 어떻게 대응해야 하는지는 알려주지 않습니다. 분석가는 여전히 그 특이한 이벤트가 중요한 것인지 파악하는 작업을 수행해야 합니다. 실제 SOC (Security Operations Center)에서 이 작업이 바로 병목 현상 (bottleneck)이 됩니다.

이 분야에서 머신러닝 (ML)을 사용하고자 한다면, Sommer와 Paxson은 이를 잘 수행하기 위한 몇 가지 실질적인 권장 사항을 제시합니다.

그들의 첫 번째 권장 사항이자 제가 다른 무엇보다 우선시하는 것은 시스템이 실제로 무엇을 하고 있는지 이해하는 것입니다. PEAK Threat Hunting Framework는 이러한 이해를 문서화하고 달성하는 데 도움이 되는 구조화된 위협 헌팅 (threat hunt) 수행 과정을 안내합니다.

두 번째는 범위를 가능한 한 좁게 유지하는 것입니다. 모델에게 일반적인 "공격"을 탐지하라고 요구하지 말고, 구체적이고 명확하게 정의된 활동을 탐지하도록 요구하십시오.

세 번째는 종종 간과되는 부분입니다. 그들은 머신러닝이 탐지기 그 자체라기보다는 **특징 발견 도구 (feature-discovery tool)**로서 가장 유용할 때가 많다고 주장합니다. 즉, 머신러닝을 사용하여 정상 트래픽과 악성 트래픽 중 어떤 특징 (feature)이 가장 많은 신호 (signal)를 담고 있는지 찾아낸 다음, 그 특징들을 기반으로 비-머신러닝 (non-ML) 탐지기를 구축하라는 의미입니다.

이와 관련하여 언급되는 또 다른 중요한 지점은 그들이 인용한 기저율 오류 (Base Rate Fallacy) 논문입니다:

"침입 탐지 (intrusion detection)에서 오분류 (misclassification)의 상대적 비용은 다른 많은 머신러닝 응용 분야와 비교했을 때 매우 높습니다. 오탐 (false positive)이 발생하면 분석가의 값비싼 시간을 들여 보고된 사건을 조사해야 하지만, 결국 그것이 정상적인 기저 활동을 반영한다는 결론에 도달하게 됩니다. Axelsson이 주장했듯이, 아주 작은 오탐률조차도 NIDS (Network Intrusion Detection System)를 순식간에 사용할 수 없게 만듭니다."

제 개인적인 의견으로는, 이 논문은 탐지 엔지니어 (detection engineer)라면 반드시 읽어야 할 필독서입니다. 왜 이런 결론에 도달하게 되었는지 이해하기 위해, 이해하기 쉬운 예시를 통해 자세히 살펴보겠습니다.

참고: 이 논문의 목적상, True Positive (진양성)는 악의적인 결과로 이어지는 모든 조사를 의미하며, False Positive (위양성)는 정상적인 활동인 모든 조사를 의미합니다. 하지만 보안 모니터링에 있어서는 이분법적인 True/False positive 사용을 피할 것을 권장합니다.

하루에 100만 개의 이벤트가 발생하고, 그중 실제 침입이 하루에 2건 발생한다고 가정하는 작은 환경을 설정해 보겠습니다. 각 침입이 10개의 이벤트를 생성한다고 가정하면, 총 100만 개의 이벤트 중 20개의 침입 이벤트가 존재하게 됩니다. 특정 이벤트가 침입일 확률은 다음과 같습니다.
20 / 1,000,000 = 0.00002.

이 아주 작은 확률 때문에 **False Positive Rate (위양성률)**가 탐지 로직의 효과를 측정하는 가장 중요한 지표가 됩니다.

탐지율 (Detection rate)과 위양성률 (False positive rate)은 흔히 혼동되어 서로 역관계라고 생각하기 쉽지만, 그렇지 않습니다. 탐지율은 실제 침입 이벤트 대비 True Positive (진양성)의 비율인 반면, 위양성률은 실제 정상 이벤트 대비 False Positive (위양성)의 비율입니다. 이 두 수치는 독립적으로 움직일 수 있습니다. 위양성률이 결국 지배적인 영향을 미치는 이유는 어떤 추상적인 의미에서 더 중요하기 때문이 아니라, 정상 데이터의 규모가 침입 데이터보다 대략

배 더 크기 때문입니다. 완벽한 탐지율을 가진다고 해도, 맞출 수 있는 침입 이벤트가 20개뿐이므로 단 20번의 적중만을 얻을 수 있습니다. 반면 위양성률이

0.001이라면, 탐지 대상이 될 수 있는 정상 이벤트가 거의 100만 개에 달하기 때문에 1,000개의 잘못된 적중(false hits)을 생성합니다. 위양성률은 탐지율보다 훨씬 더 큰 숫자에 의해 곱해집니다.

따라서 True Positive Rate (TPR, 진양성률)를 결정하는 식은 다음과 같습니다:
TPR = TP / 실제 침입 이벤트 수.

우리의 예시를 사용하면,
20 / 20 = 1.0 (완벽한 탐지기는 20개의 침입 이벤트를 모두 잡아냅니다).

False Positive Rate (FPR, 위양성률)를 결정하는 식은 다음과 같습니다:
FPR = FP / 실제 정상 이벤트 수.

우리의 예시를 사용하면,
FPR은 1,000 / 999,980 ≈ 0.001입니다.

탐지율이 1.0인 완벽한 탐지기와 위양성률이 0.00001인 경우...

, 당신은 20개의 침입 이벤트를 모두 진양성 (True Positive)으로 잡아냅니다. 또한, 1,000,000 × 0.00001 = 10 이므로, 정상 트래픽에서 대략 10개의 위양성 (False Positive)을 발생시킵니다.

전체 30개 중 20개의 실제 경보입니다. 베이지안 탐지율 (Bayesian detection rate)은 약 66%입니다.

위양성률 (False Positive Rate)을 서류상으로는 여전히 괜찮아 보이는 0.001로 높이면, 경보 대기열이 폭발합니다. 20개의 진양성은 변하지 않지만, 위양성 개수는 1,000,000 × 0.001 = 1,000으로 급증합니다. 전체 1,020개 중 20개의 실제 경보

이것이 바로 규칙이 Axelsson의 수학적 계산이 실제로 요구하는 FPR (False Positive Rate, 오탐률) 근처에 안착하고 그 상태를 유지하는 방식입니다. 탐지기는 현재 트래픽으로부터 무엇이 정상인지를 학습하는 것이 아니라, 시스템에 대한 구조적 사실을 정의하고 있는 것입니다. ML (Machine Learning, 머신러닝) 이상 탐지 (Anomaly Detection)는 그러한 속성을 가지고 있지 않습니다. ML의 "정상"은 학습에 사용된 트래픽의 스냅샷일 뿐이며, 환경이 변화하면 악성 행위가 발생해서가 아니라 베이스라인 (Baseline)이 이동했기 때문에 FPR이 급증하게 됩니다. 모든 드리프트 (Drift)는 또 다른 재학습을 의미하며, 모든 재학습은 FPR을 높일 또 다른 기회가 됩니다.

방어자들에게도 AI/LLM이 있습니다…

방어자들도 동일한 모델에 접근할 수 있습니다. 제로데이 (Zero-day)를 사냥하는 익스플로잇 개발자들처럼, 블루 팀 (Blue Team) 또한 새로운 동작을 식별하고 행동 백로그 (Behavioral Backlog)를 훨씬 더 빠르게 처리하기 위해 이 모델들을 사용하고 있습니다. 그리고 위에서 다루었듯이, 탐지는 익스플로잇과 1:1로 대응되지 않으며, 심지어 제로데이의 경우에도 마찬가지입니다.

제가 탐지 엔지니어링 (Detection Engineering)에서 이상 탐지와 ML에 대해 비판적인 입장을 취해왔지만, 그것이 쓰일 곳은 분명히 있습니다. Sommer와 Paxson의 논문이 지적하듯, 특정하고 범위가 잘 정해진 유스케이스 (Use Case)를 대상으로 할 때는 효과적일 수 있습니다. 이는 "AI/ML을 쓰느냐, 아니면 행동 기반을 쓰느냐"라는 이분법적인 문제가 아니라, 둘 다를 사용하는 문제입니다.

Insights

10년간의 탐지 로직 작성 경험이 Mythos Exploit 수치를 덜 두렵게 만드는 이유

요약

핵심 포인트

새로운 Exploit 출시 속도는 항상 방어자의 탐지 작성 능력을 훨씬 앞질러 왔습니다

공격자들에게 Zero-Day는 필요하지 않았습니다

탐지 로직은 Exploit과 1대1로 매칭되지 않습니다

머신러닝 (Machine Learning)과 이상 탐지 (Anomaly Detection)가 정답이 아닐 가능성이 높은 이유

방어자들에게도 AI/LLM이 있습니다…

댓글

자동화된 투자 확대에 따라 AI 트레이딩 도구 출시를 가속화하는 증권사들

Universal Technical Institute의 CEO가 390만 달러 상당의 회사 주식을 매도했습니다. 해당 거래를 자세히

모든 프로젝트의 Claude Code 세션을 하나의 목록으로 — Enter를 눌러 재개하기

코드 청결도는 코딩 에이전트에 영향을 미치는가? 통제된 최소쌍 연구

Universal Technical Institute의 CEO가 390만 달러 상당의 회사 주식을 매도했습니다. 해당 거래를 자세히

모든 프로젝트의 Claude Code 세션을 하나의 목록으로 — Enter를 눌러 재개하기

코드 청결도는 코딩 에이전트에 영향을 미치는가? 통제된 최소쌍 연구