Mythos, 머신 스피드로 제로 데이(Zero-Day)를 공격하다: 런타임 격차 [2026]

4월 7일, Anthropic은 자사의 가장 강력한 모델을 일반 공개하지 않고 보류한다고 발표했습니다. Claude의 연구 프런티어 모델(research frontier model)인 Mythos Preview는 모든 주요 운영 체제(OS)와 모든 주요 웹 브라우저에서 제로 데이(zero-day) 취약점을 자율적으로 찾아낸 다음, 이를 작동 가능한 익스플로잇(exploit)으로 전환할 수 있습니다. 몇 주가 걸리는 것이 아닙니다. 며칠이 걸리는 것도 아닙니다. 머신 스피드(machine speed)로 — 즉, 과거에 발견에서 무기화까지 수개월이 걸렸던 것과 달리 단 몇 시간 만에 수행합니다. Project Glasswing이라는 컨소시엄 아래 12개 조직이 첫 번째 액세스 권한을 가졌으며, 약 40개의 조직이 지원 역할로 참여하고 있습니다. 나머지 세상은 왜 그 숫자가 의도적으로 적은지를 방금 깨달았습니다.

집행 격차(enforcement gap)는 출시 전 모델 검토(pre-launch model review)와 런타임 정책 집행(runtime policy enforcement) 사이의 공간을 의미합니다. 출시 전 검토는 통제된 조건 하에서 모델이 무엇을 할 수 있는지를 알려줍니다. 런타임 집행은 해당 모델을 실행하는 배포된 에이전트가 실제 도구 접근 권한, 실제 데이터, 실제 결과가 따르는 라이브 프로덕션 세션 중에 실제로 무엇을 할 수 있도록 허용되는지를 규정합니다.

Trump 행정부는 첫 번째 문제(출시 전 검토)를 다루려 하고 있습니다. 하지만 두 번째 문제(런타임 집행)를 해결한 사람은 아무도 없습니다. Trump 대통령은 이르면 목요일에 AI 사이버 보안 행정 명령에 서명할 것으로 예상되며, 이는 프런티어 AI 모델에 대해 최대 90일간의 자발적 출시 전 검토 기간을 제안하고, 상업적 출시 전에 취약점을 식별하고 수정하기 위해 — 보도에 따르면 재무부와 CISA를 포함한 사이버 보안 기관을 통해 조정되는 — 정부 클리어링하우스(clearinghouse)를 설립하는 내용을 담고 있습니다. 서명에 앞선 CNN과 Bloomberg의 보도에 따르면, 이 명령은 Mythos의 능력과 OpenAI의 GPT-5.5-Cyber를 포함한 다른 프런티어 AI 모델들에 의해 촉발된 것으로 알려졌습니다.

이것은 실제 능력에 대한 실제 정책적 대응입니다. 또한 배포 라이프사이클(deployment lifecycle)의 잘못된 측면을 다루고 있기도 합니다.

Mythos 모델이 실제로 할 수 있는 것
능력 공개는 추측이 아닙니다.

Anthropic의 자체 레드팀 (Red Team) 문서에 따르면, Mythos Preview는 소프트웨어 취약점을 찾는 데 있어 "극도로 자율적 (extremely autonomous)"이라고 설명되어 있습니다. 즉, 브라우저 익스플로잇 (Browser exploits)을 체이닝(Chaining)하고, Linux 시스템에서 권한 상승 (Privilege escalation)을 실행하며, 운영 서버 소프트웨어를 대상으로 원격 코드 실행 (Remote code execution, RCE) 익스플로잇을 생성할 수 있는 능력을 갖추고 있습니다. 이는 가장 숙련된 인간 버그 헌터 (Bug hunters)들에게도 도전이 될 수 있는 수천 개의 취약점들을 의미합니다. 위협 모델 (Threat model)을 변화시킨 것은 바로 속도의 차이입니다. 방어자들은 역사적으로 취약점 발견과 무기화 (Weaponization) 사이의 시간 간격에 의존해 왔습니다. 제로 데이 (Zero-day) 취약점이 발견된 후 익스플로잇 코드가 개발되는 동안 몇 달 동안 비공개로 유지될 수도 있었습니다. Mythos는 그 창을 극적으로 축소시킵니다. 공식적인 보안 배경이 없는 엔지니어들이 원격 코드 실행 취약점을 찾아달라고 요청했을 때, 다음 날 아침 돌아와 보니 이미 작동하는 익스플로잇이 생성되어 있었습니다. Google Threat Intelligence Group (GTIG)은 2026년 5월 11일, 계획된 대규모 악용 캠페인에 사용된 AI 개발 제로 데이 익스플로잇의 첫 번째 기록된 사례를 확인했습니다. 한 위협 행위자 (Threat actor)가 AI 모델을 사용하여 널리 배포된 오픈 소스 웹 기반 시스템 관리 도구의 2단계 인증 (2FA) 우회 취약점을 발견하고 무기화했습니다. Google의 GTIG는 대규모 악용 이벤트가 시작되기 전에 공격을 식별했습니다. AI가 생성한 익스플로잇 특유의 표식인 교육용 독스트링 (Docstrings)이 포함된 고도로 주석 처리된 Python 코드와, 환각 (Hallucinated, 존재하지 않는) CVSS 점수를 통해 이를 알아차린 것입니다. 위협 행위자는 환각된 점수를 눈치채지 못한 것으로 보입니다. Google은 해당 특정 캠페인을 중단시켰을 가능성이 높습니다. 이제 이 기술은 문서화되었습니다. 출시 전 검토가 집행 격차를 해소하지 못하는 이유: 트럼프 행정부의 행정명령 (EO)에서 제안된 검토 프레임워크는 대중이 접근하기 전에 정부가 프런티어 모델 (Frontier model)의 역량을 파악할 수 있도록 설계되었습니다. 사이버 보안 클리어링하우스 (Cybersecurity clearinghouse) 모델 — 자발적 참여, 조정된 공개 (Coordinated disclosure), 정부와 산업계의 협력 — 은 배포 전 스크리닝을 위한 합리적인 시작점입니다.

여기에 구조적인 문제가 있습니다: 출시 전 검토(pre-launch review)는 모델이 무엇을 할 수 있는지를 조사합니다. 하지만 해당 모델을 실행하는 배포된 에이전트(deployed agent)가 실제 운영 환경(production)에서 실제로 무엇을 하는지는 통제할 수 없습니다. 집행 격차(enforcement gap)는 모델 수준에서 발생하는 것이 아닙니다. 그것은 실행(execution) 수준에서 발생합니다. 정부의 출시 전 검토 프로세스를 통과한 기업 팀은 하나의 관문을 통과했을 뿐입니다. 그들은 해당 모델이 운영 시스템, 코드 실행 환경(code execution environments), 네트워크 인터페이스 또는 외부 API에 접근할 수 있는 에이전트 내부에서 실행될 때 어떤 일이 발생하는지는 해결하지 못했습니다. 이 모든 것은 정상적인 배포 컨텍스트(deployment contexts)입니다. 코드 실행 도구를 갖춘 Mythos급 역량으로 실행되는 통제되지 않은 에이전트는 단일 실행 아크(execution arc) 내에서 타겟을 스캔하고, 제로 데이(zero-day)를 식별하며, 작동하는 익스플로잇(exploit)을 생성할 수 있습니다. 인간의 개입(human in the loop)도 없습니다. 차단할 집행 계층(enforcement layer)도 없습니다. 출시 전 검토 기관은 모델의 역량을 고립된 상태에서 검토했습니다. 그들은 귀하의 운영 배포(production deployment)를 보지 못합니다. 그 격차는 아키텍처(architectural)적인 것입니다. 행정명령(EO)은 배포 전의 공개(disclosure) 문제를 다룹니다. 집행 격차는 배포 후에도 지속됩니다.

목요일 서명으로 인해 컴플라이언스(compliance) 소음이 발생하기 전, 프런티어 에이전트(Frontier Agents)를 배포하는 팀이 지금 즉시 확인해야 할 사항: Claude 모델이나 기타 프런티어 AI 에이전트를 배포하는 팀에게 운영 측면에서 중요한 것은 다음과 같습니다:

에이전트가 도달할 수 있는 범위를 매핑하십시오. 기반 모델이 취약점을 식별하고 무기화할 수 있을 때, 에이전트가 접근할 수 있는 모든 시스템, API 및 도구는 잠재적인 공격 표면(attack surface)이 됩니다. 코드 실행 환경, 네트워크 도구 또는 파일 시스템 접근 권한을 가진 Mythos급 모델 기반의 에이전트는 관측성 대시보드(observability dashboards)가 다루지 못하는 수준의 위험에서 작동하고 있습니다. 신호 도메인 경계(signal-domain boundary)는 에이전트가 어떤 데이터와 시스템에 도달할 수 있는지를 정의하는 아키텍처적 통제 수단입니다. 에이전트의 기능에 꼭 필요한 범위로만 제한하십시오.
실행 전 정책 집행(pre-execution policy enforcement)이 마련되어 있는지 확인하십시오. 모니터링 도구는 에이전트가 이미 도구 호출(tool call)을 실행한 후에 문제를 포착합니다.

Mythos급 추론 능력을 갖춘 에이전트에게는 그것이 너무 늦습니다. 실행이 시작되기 전, 즉 도구 호출(tool call)이 발생하기 전이지 동작이 완료된 후가 아니라, 의도(intent)와 범위(scope)를 평가하는 입력 검증 정책(input validation policies)이 필요합니다. 귀하의 킬 스위치(kill switch)가 올바른 신호에 작동하는지 테스트하십시오. 만약 에이전트가 네트워크 토폴로지(network topology)를 쿼리하거나, 예상치 못한 디렉토리에 쓰기를 수행하거나, 정찰(reconnaissance)처럼 보이는 패턴으로 도구 호출을 체이닝(chaining)하기 시작한다면, 로그 기록이 아닌 즉각적인 중단(hard stop)이 필요합니다. 킬 스위치(Kill Switch) 정책은 설정된 임계값(threshold)을 초과하는 즉시 실행 아크(execution arc)를 종료합니다. 대부분의 팀은 모니터링(monitoring)을 갖추고 있지만, 실행 전 강제 적용(pre-execution enforcement)을 갖춘 팀은 드뭅니다. 현재 귀하의 스택이 실제로 무엇을 제공하는지 확인하십시오. 귀하의 실행 기록이 방어 가능하도록(defensible) 보장하십시오. 정부의 청산소(clearinghouse)가 사고 후 연락을 해올 때(반드시 그렇게 될 것입니다), "모니터링 중이었습니다"라는 말은 불충분합니다. 에이전트가 무엇을 쿼리했는지, 어떤 도구를 호출했는지, 무엇이 승인되었고 무엇이 차단되었는지에 대한 완전하고 내구성이 있는 기록이 포렌식 검토(forensic review)를 위해 구조화되어 있어야 합니다. 그것은 로그 파일(log file)이 아니라 감사 추적(audit trail)입니다.

Waxell Runtime이 이를 처리하는 방식
Waxell Runtime은 모델의 능력과 귀하의 프로덕션 시스템(production systems) 사이의 강제 적용 계층(enforcement layer)입니다. 이는 모델이 이론적으로 격리된 상태에서 무엇을 할 수 있는지 스크리닝하는 정부의 출시 전 검토 프로세스를 대체하는 것이 아닙니다. Waxell Runtime은 배포된 에이전트가 실제 라이브 프로덕션 세션 중에 실제로 무엇을 할 수 있도록 허용되는지를 관리합니다. 특히 프런티어 모델(frontier model) 배포의 경우, 세 가지 정책 유형이 강제 적용 격차를 직접적으로 해결합니다: 킬 스위치(Kill Switch) 정책은 동작이 완료되기 전, 정의된 임계값을 초과할 때 에이전트의 실행 아크를 종료합니다. 만약 에이전트의 도구 호출 시퀀스가 취약점 스캔(vulnerability scan), 권한 상승(privilege escalation) 시도, 또는 네트워크 정찰(network reconnaissance) 패턴과 유사해지기 시작하면 실행이 중단됩니다. 이 정책은 실행 후(post-run)가 아니라 실행 전(pre-execution)에 작동합니다. 이는 에이전트가 해서는 안 될 일을 했다는 것을 관찰하는 것과 그 동작이 완료되지 않도록 방지하는 것 사이의 차이입니다.

콘텐츠 정책(Content policies)은 악용 패턴과 일치하는 입력 및 출력을 차단합니다. 프롬프트 인젝션(Prompt injection) 시도, 특정 취약점 클래스를 겨냥한 코드 생성, 그리고 익스플로잇 페이로드(exploit payloads)를 인코딩하는 출력 구조 등은 모델의 컨텍스트(context)에 도달하거나 에이전트의 출력 경계를 벗어나기 전, 정책 계층(policy layer)에서 모두 포착될 수 있습니다. 보안 보장은 모델 정렬(model alignment)만으로 이루어지는 것이 아니라, 강제 집행(enforcement)을 통해 이루어집니다. 제어 정책(Control policies)은 배포된 에이전트가 접근할 수 있는 범위에 대한 제한을 강제합니다. 신호 도메인 경계(signal-domain boundary)는 최소 권한 네트워킹(least-privilege networking)의 아키텍처적 대응물입니다. 즉, 에이전트는 자신의 기능에 명시적으로 허용된 데이터와 시스템에 대해서만 가시성을 갖습니다. 결제 에이전트에게 네트워크 접근 권한은 필요하지 않습니다. 코드 리뷰 에이전트에게 운영 데이터베이스(production database) 자격 증명은 필요하지 않습니다. 이러한 경계는 상속된 기본값이 아니라 킬 스위치(Kill Switch) 및 제어 정책(Control policies)으로 정의됩니다. Waxell Runtime은 26개의 정책 카테고리를 제공하며, 에이전트 코드를 수정하지 않고도 200개 이상의 LLM 제공업체 및 에이전트 프레임워크와 통합됩니다. 단 두 줄의 초기화만 필요합니다. 재빌드(rebuilds)는 필요하지 않습니다. 거버넌스 계층(governance layer)은 에이전트 상단에 위치하며, 에이전트 자체를 다시 작성할 필요가 없습니다. 행정명령(EO)의 클리어링하우스(clearinghouse)는 기반 모델이 출시 전 검토를 통과했는지 여부를 알려줄 것입니다. Waxell Runtime은 에이전트가 배포된 '이후'에 발생하는 일을 강제합니다. 이 둘은 서로 다른 문제입니다. 그리고 그중 하나만이 이번 주 목요일에 규제적 해답을 내놓을 것입니다. 귀하의 환경에서 26개의 정책 카테고리가 어떻게 작동하는지 확인하려면 Waxell Runtime에 대한 액세스 권한을 확보하십시오.

자주 묻는 질문(FAQ)

트럼프 AI 사이버 보안 행정명령(Trump AI cybersecurity executive order)이 프런티어 AI(frontier AI) 모델을 사용하는 기업에 적용됩니까?
현재 기술된 행정명령은 AI 모델 제공업체에 직접 적용됩니다. 즉, 정부 사이버 보안 클리어링하우스(cybersecurity clearinghouse)와 자발적인 출시 전 모델 공유를 요구합니다. 해당 모델을 배포하는 기업 팀은 명령의 직접적인 적용 대상은 아니지만, 프런티어 모델이 운영 환경에서 어떻게 사용되는지에 대한 보안 및 컴플라이언스(compliance) 책임을 상속받게 됩니다.

런타임(runtime)에서의 집행 격차(enforcement gap)는 전적으로 기업의 책임입니다. 정부의 검증 기관(clearinghouse)은 귀사의 배포 환경까지 확장되지 않습니다. Anthropic Mythos란 무엇이며, 왜 기업의 AI 보안에 중요한가요? Anthropic Mythos Preview는 모든 주요 운영 체제(OS)와 웹 브라우저를 포함하여, 운영 소프트웨어 내의 제로 데이(zero-day) 취약점을 자율적으로 발견하고 무기화할 수 있으며, 머신 스피드(machine speed)로 작동하는 익스플로잇(exploit)을 생성할 수 있는 프런티어 AI 모델입니다. Anthropic은 Project Glasswing 하에 핵심 기술 파트너 그룹으로 액세스를 제한했으며, 이 컨소시엄은 광범위한 출시 이전에 해당 모델의 방어적 활용을 조정하고 있습니다. Trump AI 행정명령(EO)은 부분적으로 Mythos 및 기타 프런티어 AI 모델들로 인해 촉발된 것으로 알려졌습니다. Claude급 모델이나 기타 프런티어 에이전트(agent)를 배포하는 기업은 Mythos의 문서화된 능력을 런타임 에이전트 거버넌스(agent governance)가 해결해야 할 현재의 최전선으로 간주해야 합니다.

AI 에이전트 거버넌스에서 킬 스위치(Kill Switch) 정책이란 무엇인가요? 킬 스위치 정책은 정의된 임계값이 초과되었을 때, 해롭거나 범위를 벗어난 동작이 완료되기 전에 에이전트의 실행 아크(execution arc)를 종료하는 런타임 집행 규칙입니다. 사후에 발생하는 모니터링 알림(monitoring alert)과 달리, 킬 스위치는 실행 전(pre-execution)에 작동하여 세션 중간에 에이전트를 중단시킵니다. 익스플로잇 시퀀스(exploitation sequence)가 머신 스피드로 완료될 수 있는 Mythos급 배포 환경에서는, 실행 전 집행(pre-execution enforcement)과 실행 후 관찰(post-run observation) 사이의 차이가 공격을 저지하느냐 아니면 공격을 기록하느냐의 차이를 만듭니다.

LangSmith나 Arize와 같은 관측성(observability) 도구가 Mythos급 익스플로잇 시도를 포착할 수 있나요? 관측성 도구는 에이전트가 무엇을 하는지 기록할 뿐, 이를 방지하지는 못합니다. LangSmith, Arize, Helicone 및 유사한 플랫폼들은 실행 후에 트레이스(traces)와 로그(logs)를 표면화합니다. 머신 스피드로 작동하는 Mythos급 모델은 인간이 알림을 검토하는 것보다 더 빠르게 익스플로잇 시퀀스를 완료할 수 있습니다. 집행 계층(enforcement layer)은 실행 후 대시보드가 아니라, 도구 호출(tool call)이 발생하기 전인 실행 전(pre-execution) 단계에서 작동해야 합니다.

모니터링은 필수적입니다. 하지만 그것만으로는 충분하지 않습니다. Google의 2026년 5월 제로 데이(Zero-Day) 발견 사례는 구체적으로 무엇을 확인해 주었을까요? Google Threat Intelligence Group (GTIG)은 계획된 대규모 공격 캠페인을 준비하기 위해, 널리 사용되는 오픈 소스 웹 기반 시스템 관리 도구에서 2단계 인증(2FA) 우회 취약점을 발견하고 이를 무기화하는 데 AI 모델을 사용한 위협 행위자(threat actor)를 식별했습니다. Google의 탐지는 AI가 생성한 익스플로잇(exploit)의 독특한 특징들을 기반으로 이루어졌습니다: 교육용 독스트링(docstrings), 실제 CVE와 일치하지 않는 환각(hallucinated)된 CVSS 점수, 그리고 LLM 학습 데이터의 특징인 교과서적인 파이썬 방식(Pythonic)의 코드 구조가 그것입니다. GTIG는 영향을 받은 벤더와의 조율된 공개(coordinated disclosure)를 통해 해당 캠페인을 저지했습니다. 이것은 AI가

Mythos, 머신 스피드로 제로 데이(Zero-Day)를 공격하다: 런타임 격차 [2026]

요약

핵심 포인트

댓글