MDASH: 100개의 에이전트가 하나의 프런티어 모델을 이기는 방법

5월 12일, Microsoft의 Autonomous Code Security 팀은 AI 보안 담론의 틀을 바꾼 벤치마크 결과를 발표했습니다. 그들의 시스템인 MDASH는 CyberGym 취약점 벤치마크에서 88.45%를 기록하며, Anthropic의 Mythos Preview (83.1%)보다 5포인트 앞섰고, OpenAI의 GPT-5.5 (81.8%)보다 거의 7포인트 앞섰습니다.

차트와 삽입된 출처가 포함된 전체 버전은 AgentConn에서 확인하세요

이 결과는 놀랍지 않았습니다. MDASH가 더 나은 모델을 사용했기 때문입니다. 하지만 놀라운 점은 MDASH가 단 하나의 모델을 전혀 사용하지 않았다는 것입니다. Microsoft는 공개적으로 사용 가능한 모델들을 100개 이상의 전문화된 에이전트(agents)로 구성된 구조화된 파이프라인으로 엮어냈으며, 이 파이프라인은 리더보드의 모든 단일 모델(single-model) 항목들을 능가했습니다.

Satya Nadella on X announcing MDASH — 100+ specialized agents finding exploitable bugs, top CyberGym performance, 178K views

멀티 에이전트 시스템(multi-agent systems)을 구축하는 누구에게나 이 결과가 주는 시사점은 명확합니다. 작업이 충분히 복잡할 때, 조합(composition)이 규모(scale)를 이깁니다.

MDASH의 실체

MDASH는 Multi-model Agentic Scanning Harness의 약자입니다. Microsoft의 Autonomous Code Security (ACS) 팀이 구축한 이 시스템은 프런티어 모델(frontier models)과 증류된 모델(distilled models)의 앙상블 전반에 걸쳐 100개 이상의 전문화된 AI 에이전트를 오케스트레이션(orchestrates)하여, 코드베이스 내에서 악용 가능한 취약점을 자율적으로 발견, 토론, 검증 및 증명합니다.

핵심 설계 결정: MDASH는 **모델 불가지론적 (model-agnostic)**입니다. 프런티어 모델 (Frontier models)은 강력한 추론기 (heavy reasoners) 역할을 수행합니다. 증류된 모델 (Distilled models)은 대량의 토론과 필터링을 처리합니다. 별도의 SOTA 모델은 독립적인 반론 (counterpoint) 역할을 합니다. 파이프라인 단계를 다시 작성할 필요 없이 모델을 교체하거나 A/B 테스트를 할 수 있습니다. 더 나은 모델이 등장하면 아키텍처를 바꾸는 것이 아니라 설정 파일만 변경하면 됩니다.

핵심 통찰: Microsoft의 에이전틱 보안 (Agentic Security) 부사장 Taesoo Kim이 언급했듯이, "하네스 (harness)가 작업을 수행하며, 모델은 하나의 입력값일 뿐입니다." 만약 모델을 교체하기 위해 파이프라인을 다시 작성해야 한다면, 당신은 시스템이 아닌 모델 통합 (model integration)을 구축한 것입니다.

이러한 프레임워크는 깊이 고민해 볼 가치가 있습니다. 당신이 의존하는 최고의 모델이 72시간 안에 사라질 수 있는 세상에서, 지속 가능한 가치는 단일 모델 자체가 아니라 모델을 둘러싼 시스템인 오케스트레이션 계층 (orchestration layer)에 존재합니다.

업계 분석가 Patrick Moorhead는 이러한 변화의 중요성을 다음과 같이 포착했습니다:

Patrick Moorhead on X — Narrative violation: MDASH topped CyberGym at 88.45%, ahead of Mythos and GPT-5.5, 100+ AI agents with multi-stage adversarial debate

5단계 파이프라인

MDASH는 각 단계가 전문화된 에이전트 집단 (cohort of agents)에 의해 처리되는 5단계 파이프라인으로 작동합니다. 이것이 바로 Mythos를 이긴 아키텍처입니다:

MDASH 5-stage pipeline architecture: Prepare, Scan, Validate, Dedupe, Prove — with model-agnostic ensemble layer underneath

1단계: 준비 (Prepare)

시스템은 대상 소스 코드를 수집하고, 언어 인지 인덱스 (language-aware indices)를 구축하며, 과거 커밋을 분석하여 공격 표면 (attack surface)을 매핑합니다. 이 단계에서는 스캐닝이 시작되기 전에 위협 모델 (threat models)을 도출하고 가치가 높은 코드 경로를 식별합니다.

2단계: 스캔 (Scan)

전문화된 **감사 에이전트 (auditor agents)**가 후보 코드 경로를 실행합니다. 각 감사자는 가설과 증거를 포함한 후보 발견 사항 (candidate findings)을 내놓습니다. 이들은 무엇이 잘못되었을 수 있는지에 대한 이론을 생성하지만, 그 이론을 검증하지는 않습니다. 그것은 다른 누군가의 역할입니다.

3단계: 검증 (Validate)

두 번째 에이전트 그룹인 **토론자 (debaters)**는 각 발견 사항의 도달 가능성 (reachability) 및 악용 가능성 (exploitability)에 대해 찬성 또는 반대 논거를 펼칩니다. 이 지점이 MDASH가 단일 모델 접근 방식과 가장 극명하게 갈라지는 부분입니다. 감사자 (auditor)가 무언가를 의심스러운 것으로 표시했을 때 토론자가 이를 반박하지 못하면, 해당 발견 사항의 사후 신뢰도 (posterior credibility)가 상승합니다. 앙상블 간의 불일치 (ensemble disagreement)가 바로 신호가 됩니다.

4단계: 중복 제거 (Dedupe)

검증 후, MDASH는 패치 기반 그룹화 (patch-based grouping)를 통해 의미론적으로 동일한 발견 사항들을 통합합니다. 여러 감사자가 서로 다른 코드 경로를 통해 동일한 근본 문제를 지적하는 경우가 많으므로, 중복 제거 (deduplication)를 통해 파이프라인이 중복된 작업에 증명자 (prover) 리소스를 낭비하지 않도록 보장합니다.

5단계: 증명 (Prove)

**증명자 에이전트 (Prover agents)**는 취약점이 동적으로 존재함을 확인하는 트리거 입력값 (triggering inputs)을 생성합니다. C/C++ 대상의 경우, 이들은 AddressSanitizer (ASan)를 사용하여 메모리 위반 (memory violations)을 확인합니다. 이 단계는 이론적인 발견 사항을 실제로 작동하는 개념 증명 (proof-of-concept, PoC) 익스플로잇으로 변환합니다.

분업화는 이 시스템의 핵심적인 아키텍처적 통찰입니다. 감사자는 토론자처럼 추론하지 않으며, 토론자는 증명자처럼 추론하지 않습니다. 각 파이프라인 단계는 고유한 역할, 프롬프트 체계 (prompt regime), 도구 및 중단 기준 (stop criteria)을 가집니다. 이러한 전문화 덕분에 MDASH는 파일 간 소유권 버그 (cross-file ownership bugs)를 잡아낼 수 있습니다. 이는 여러 소스 파일에 걸친 패턴을 비교해야만 가시화되는 메모리 수명 주기 위반 (memory-lifecycle violation)과 같은 버그로, 단일 모델이 각 함수를 개별적으로 처리할 때는 노이즈로 취급되어 사라져 버리는 것들입니다.

구성 (Composition)이 규모 (Scale)를 이기는 이유

UC Berkeley 연구진이 개발한 CyberGym 벤치마크 (CyberGym benchmark)는 AI 시스템이 188개의 오픈 소스 소프트웨어 프로젝트에서 추출된 1,507개의 태스크에 걸쳐 실제 세계의 취약점을 얼마나 잘 재현하는지 측정합니다. 각 태스크는 시스템에 취약점 설명과 패치 적용 전 커밋 (pre-patch commit) 상태로 고정된 코드베이스를 제공하며, 성공을 위해서는 결함을 트리거하는 작동 가능한 개념 증명 (proof-of-concept)을 생성해야 합니다.

CyberGym benchmark leaderboard showing MDASH at 88.45% leading Mythos Preview at 83.1% and GPT-5.5 at 81.8%

이것이 바로 단일 모델이 한계에 부딪히는 전형적인 작업 유형입니다. 이 벤치마크는 다음을 요구합니다:

교차 파일 추론 (Cross-file reasoning) — 여러 소스 파일과 소유권 경계에 걸쳐 있는 버그를 찾아내는 것
다단계 검증 (Multi-step validation) — 이론적인 취약점이 실제로 도달 가능하고(reachable) 악용 가능한지(exploitable) 확인하는 것
증명 구축 (Proof construction) — 단순히 의심스러운 패턴을 표시하는 것이 아니라, 작동하는 익스플로잇 (exploit)을 구축하는 것

어떤 단일 모델도 이 세 가지 모두에서 탁월할 수는 없습니다. Mythos는 에이전트 프레임워크 (agent framework)로 감싸진 강력한 모델이지만, 여전히 하나의 모델이 모든 것을 수행합니다. MDASH는 인지 부하를 각 단계에 최적화된 전문가들에게 분산시킵니다.

구성 테제 (composition thesis)는 간단합니다. 작업이 서로 다른 추론 패턴을 요구하는 별개의 하위 작업으로 분해될 때, 전문가 파이프라인은 단일 범용 모델(generalist)보다 더 나은 성능을 발휘합니다. 설령 그 범용 모델이 개별 하위 작업 하나하나에 대해서는 더 뛰어난 능력을 갖추고 있더라도 말입니다.

Microsoft의 블로그는 이를 명시적으로 설명합니다: "탐지(Discovery)는 단일 프롬프트로는 달성할 수 없는 구성을 필요로 합니다. 발견된 버그들은 단일 함수를 전달받은 모델에게는 보이지 않지만, 교차 파일 패턴 비교, 다단계 도달 가능성 분석 (reachability analysis), 전문화된 에이전트 간의 토론, 그리고 엔드 투 엔드 (end-to-end) 증명 구축을 순차적으로 수행할 수 있는 시스템에게는 보입니다."

Microsoft Threat Intelligence on X — Codename MDASH orchestrates 100+ specialized AI agents across an ensemble of frontier and distilled models to discover, debate, and prove exploitable bugs end-to-end

엔드 투 엔드 (end-to-end)를 강조하는 것이 핵심입니다. 즉, 시스템은 단계 사이에서 단순히 업무를 넘겨주는 것이 아니라, 전체 루프 (full loop)를 직접 소유하고 관리합니다.

벤치마크의 주의사항

우리가 알고 있는 것과 알지 못하는 것에 대해 솔직해져 봅시다.

벤치마크 주의사항 (Benchmark caveat): CyberGym 점수는 자기 보고(self-reported) 방식입니다. Microsoft, Anthropic, 그리고 OpenAI는 각각 벤치마크에 대해 자체 시스템을 실행하고 각자의 수치를 보고했습니다. 제출된 점수를 검증한 독립적인 제3자는 없습니다. 정확한 백분율은 확정적인 수치가 아닌 방향성을 나타내는 지표로 간주하십시오.

GeekWire의 Todd Bishop는 이 중요한 세부 사항을 지적했습니다. 벤치마크 코드는 공개되어 있지만, 검증 프로세스는 공개되어 있지 않습니다. 그렇다고 해서 결과가 무의미하다는 뜻은 아니지만, 정확한 격차(margin)는 유연하게 해석해야 함을 의미합니다. 아키텍처 측면의 논거(복잡한 다단계 작업에서는 규모(scale)보다 구성(composition)이 중요하다는 점)는 결과에 의해 뒷받침되지만, 결과에 의해 결정적으로 증명된 것은 아닙니다.

또한 개선 궤적(improvement trajectory)에 대한 문제도 있습니다. 6월 2일 Build 2026 기준으로, MDASH의 점수는 96.55%로 상승했습니다. 이는 3주도 채 되지 않아 약 10퍼센트 포인트가 상승한 수치입니다. 이러한 급격한 상승은 근본적인 아키텍처의 변화보다는 지속적인 모델 패널(model-panel)의 개선(더 나은 모델로 교체하거나 프롬프트 체계(prompt regimes)를 조정하는 작업)을 반영했을 가능성이 높습니다. 이는 또한 모델 불가지론적(model-agnostic) 시스템의 장점을 강조합니다. 즉, 이 하네스(harness)는 코드 재작성이 아닌 설정 변경(config changes)을 통해 모델의 개선 사항을 흡수합니다.

실제 환경에서의 결과 (Real-World Results)

벤치마크 수치보다 더 중요한 것은 MDASH가 실제 운영 환경(production)에서 발견한 내용입니다. 2026년 5월 패치 화요일(May 2026 Patch Tuesday)을 향해 나아가는 과정에서, MDASH는 이전에 알려지지 않았던 16개의 Windows 취약점을 발견했습니다:

10개의 커널 모드 결함 (kernel-mode flaws): TCP/IP 스택 및 IKEv2 서비스의 버그 포함
6개의 유저 모드 결함 (user-mode flaws): 네트워킹 및 인증 구성 요소 전반에 걸쳐 발견
4개의 치명적인 원격 코드 실행 (RCE) 취약점: CVE-2026-33824 포함 — 인증되지 않은 공격자가 UDP 포트 500을 통해 원격으로 접근 가능한 Windows IKEEXT 서비스의 더블 프리 (double-free) 오류

AI 기반의 취약점 발견 속도가 결함의 발견 및 수정 속도를 가속화함에 따라, Microsoft는 향후 고객들이 더 커진 패치 화요일 (Patch Tuesdays)을 예상하도록 안내하고 있습니다.

역사적 검증 또한 강력했습니다. MDASH는 clfs.sys에 대해 5년에 걸친 28개의 MSRC 사례에서 **96%의 재현율 (recall)**을 달성했으며, tcpip.sys에 대한 7개 사례에서는 **100%의 재현율 (recall)**을 달성했습니다. StorageDrive 프라이빗 테스트에서는 심어진 21개의 취약점 중 21개를 모두 찾아냈으며, 오탐 (false positives)은 제로를 기록했습니다.

Nicolas Krassas on X — Microsoft MDASH found 16 Windows RCEs, explaining how the 100-agent pipeline works

이 시스템을 신뢰할 수 있게 만드는 것은 단순한 벤치마크 점수가 아니라, 실제 환경에서의 CVE 산출물입니다.