세계에서 가장 위험한 AI 모델이 백신을 맞게 된 과정

2026년 4월 7일. 기술 세계가 떨고 있습니다. Claude AI를 개발한 Anthropic — 이 회사는 최근 내부적으로 자신이 상용화하지 않기로 결정한 모델의 존재를 공개했습니다. 성능이 부족해서가 아닙니다. 너무나 잘 작동하기 때문입니다.

그 이름은: Claude Mythos Preview.

내부 테스트 첫 몇 주 만에, Mythos는 어떤 AI도 이 정도 규모로는 성공하지 못했던 일을 해냈습니다. 바로 지구상의 가장 중요한 소프트웨어들에서 수천 개의 *0-day 취약점 (0-day vulnerabilities)*을 찾아낸 것입니다.

0-day 취약점 (0-day vulnerability) — 소프트웨어 내의 비밀스러운 취약점으로, 제작자조차 알지 못하는 상태를 의미합니다. 이 용어는 발견과 실제 악용 사이에 "0일"의 지연 시간밖에 없다는 사실에서 유래했습니다. 즉, 취약점은 존재하지만 아직 아무도 이에 대비하지 못한 상태입니다.

이것은 비유가 아닙니다. Anthropic 스스로가 문서화하고, 검증하고, 발표한 사실입니다.

Mythos의 피해 목록

Linux 커널 (Linux Kernel) — 자동차의 엔진을 상상해 보세요. 엔진을 제거하면 자동차는 움직일 수 없습니다. Linux 커널이 바로 그것입니다. 전 세계 슈퍼컴퓨터의 100%, 거의 모든 기업용 서버, 그리고 여러분의 스마트폰에 탑재된 Android 시스템을 구동하는 보이지 않는 핵심입니다. Mythos는 여기서 메모리 관리 (memory management) 취약점을 찾아냈습니다. 즉, 소프트웨어가 데이터를 저장하고 불러오는 방식에서 발생하는 오류로, 마치 거대한 창고에 있는 수천 개의 상자에 누군가 잘못된 라벨을 붙여놓은 것과 같습니다. 이는 현재 최고의 보안 도구들로도 찾아낼 수 없는 것이었습니다.
GAFAM의 인프라 — Google, Microsoft, Amazon의 핵심 클라우드 서버에서 인증 우회 (authentication bypass) (즉, 비밀번호 없이 어떤 문이든 열 수 있는 마스터키) 및 원격 코드 실행 (remote code execution) (물리적 접근 없이 지구 반대편에 있는 서버에서 악성 프로그램을 실행할 수 있는 능력) 취약점이 발견되었습니다.
SCADA 시스템 (SCADA systems) — 이것들은 전력망, 수문, 발전소와 같은 현실 세계의 물리적 인프라를 제어하는 산업용 소프트웨어입니다. 데이터가 아니라 기계를 다룹니다. 여기서 발견된 취약점은 단순히 컴퓨터를 다운시키는 것이 아니라, 도시 전체를 정전시킬 수도 있습니다.

이 엔티티(entity)는 자유롭게 두기에는 너무 위험해졌습니다.

격리: 프로젝트 글래스윙 (Project Glasswing)

이러한 발견에 직면하여, Anthropic은 인공지능 역사상 전례 없는 결정을 내렸습니다. 바로 Mythos를 상용화하지 않기로 한 것입니다.

대신, 이 회사는 눈에 띄는 곳에 숨어 있는 투명한 날개를 가진 나비의 이름을 딴 **프로젝트 글래스윙 (Project Glasswing)**을 시작했습니다. 아이디어는 이렇습니다. 엄선된 12개의 파트너에게만 Mythos _Preview_에 대한 독점적 접근 권한을 부여하여, 오직 방어적인 목적으로만 모델을 사용하게 하는 것입니다. 인간 공격자들이 동일한 취약점을 찾아내기 전에 그들 자신의 서버를 패치(patch)할 수 있도록 말입니다.

출시 파트너는 누구였을까요? Amazon Web Services, Apple, Google, Microsoft, Cisco, NVIDIA, JPMorganChase, CrowdStrike, Linux Foundation, Palo Alto Networks, 그리고 Anthropic 자신입니다. 몇 주 후, 접근 권한은 15개국 이상의 150개 추가 조직으로 확대되었으며, 이들은 모두 핵심 인프라 관리자들입니다.

대중은요? 제외되었습니다. 나머지 세상도요? 제외되었습니다.

하지만 사이버 보안의 세계에서는, 문이 더 굳게 잠겨 있을수록, 그 문을 부수고 들어가고 싶은 욕구는 더 커지는 법입니다.

거인의 반격: OpenAI의 경기장 진입

Anthropic이 제한을 선택하는 동안, 그들의 역사적 라이벌은 정반대의 길을 선택했습니다.

OpenAI는 Mythos가 일으킨 지각변동에 대응하여, 사이버 보안에 특화된 자체 모델인 GPT-5.5-Cyber를 배포하고 테스트를 위해 광범위한 파트너 그룹에 공개했습니다. 전략은 명확합니다. Anthropic이 희소성과 통제라는 카드를 사용하는 반면, OpenAI는 민주화(democratization)를 내세웁니다. 두 가지 철학, 하나의 전쟁입니다.

백신 비유: Fable 5의 탄생

Mythos Preview가 출시된 지 두 달 후, Anthropic은 언젠가 이 강력한 힘을 대중이 사용할 수 있게 만들겠다는 약속을 지키고자 했습니다. 하지만 무기를 전달하면서도, 그 무기를 전달하지 않는 방법은 무엇일까요?

그 해답은 바이러스학 (virology)에서 빌려온 2세기가 된 원칙에 있습니다.

전통적인 백신 (vaccine)을 만들기 위해서는 원래의 바이러스를 채취하여 분리한 뒤, 그 독성 (virulence) — 즉 해를 끼칠 수 있는 능력 — 을 제거합니다. 환자는 바이러스를 받게 되지만, 면역 체계는 이를 인식하는 법을 배우게 되고 질병은 결코 발생하지 않습니다.

2026년 6월 10일에 발표된 Claude Fable 5를 탄생시킨 개념이 바로 이것입니다.

Fable 5는 처음부터 새로 개발된 모델이 아닙니다. Fable 5는 백신을 맞은 Mythos입니다. 동일한 아키텍처 (architecture), 동일한 추론 능력 (reasoning power)을 갖추고 있습니다. 하지만 Anthropic의 엔지니어들은 그 위에 행동 분류기 (behavioral classifiers) 시스템을 접목했습니다. 모델의 모든 출력구에 배치되어, 응답이 나가기 전에 각 답변을 읽고 레드라인(red line)을 넘을 경우 이를 차단할 수 있는 알고리즘 세관원(algorithmic customs officers)을 상상해 보십시오.

구체적으로, 사용자가 Fable 5에게 공격적 사이버 보안, 생물학, 합성 화학과 같은 민감한 질문을 던지면 모델은 답변하지 않습니다. 대신 더 오래되고 제약이 많은 모델인 Claude Opus 4.8로 조용히 바통을 넘깁니다. 사용자는 답변을 보게 되지만, 그것은 Fable의 답변이 아닙니다.

❌ 공격적 사이버 보안 (Offensive cybersecurity) → Opus 4.8로 리다이렉션 (redirected)
❌ 위험한 생물학 및 화학 (Biology and chemistry at risk) → Opus 4.8로 리다이렉션
❌ 모델 증류 (Model distillation, AI를 "복제"하는 기술) → Opus 4.8로 리다이렉션
✅ 그 외 모든 것 → Fable 5의 전체 성능 활용

Anthropic은 사용자 세션의 95%에서 이 리다이렉션 메커니즘이 전혀 작동하지 않는다고 주장했습니다. 힘은 존재하되, 독성은 꺼져 있는 상태입니다.

적어도, 우리는 그렇게 믿었습니다.

48시간 만의 탈옥 (Jailbreak): Pliny the Liberator의 습격

2026년 6월 11일. Fable 5 출시 후 48시간도 채 지나지 않은 시점.

Pliny the Liberator라는 가명으로 알려진 한 보안 연구원이 소셜 미디어에 다음과 같은 공지를 게시했습니다:

"탈옥(JAILBREAK) 경보 — ANTHROPIC: 점령됨. FABLE 5: 해방됨."

탈옥 (Jailbreak) — 잠금 해제된 휴대폰 세계에서 빌려온 용어입니다. iPhone을 "Jailbreak"한다는 것은 사용자가 원하는 것을 설치할 수 있도록 소프트웨어 제한을 제거하는 것을 의미했습니다. AI에 적용했을 때도 개념은 동일합니다. 모델의 제작자가 말하지 못하도록 금지한 내용을 모델이 말하게 만드는 방법을 찾는 것입니다.

Pliny는 무명 인사가 아닙니다. 그는 2024년부터 ChatGPT, Claude, Grok 등 시장에 출시되는 모든 주요 AI 모델에 대해 정기적으로 "해방 경보(liberation alerts)"를 게시해 왔습니다. 이는 기록되고 공개된 그의 주요 활동입니다.

이번에 그가 사용한 방법은 무엇일까요? 바로 멀티 에이전트 (multi-agents) 공격입니다.

멀티 에이전트 (multi-agents) 공격 — 당신이 클럽 입장을 허용하도록 가드(security guard)를 설득하고 싶다고 상상해 보세요. 혼자서 그와 마주하면 그는 거절할 것입니다. 하지만 먼저 공범 한 명을 보내 대화하게 하고, 그다음 두 번째, 세 번째 사람을 보내 각자가 분위기를 조성하고 그의 마음 상태를 변화시킨다면, 당신의 입장은 가능해질 것입니다. 이것이 정확히 Pliny가 한 방식입니다. 그는 수정된 버전의 Claude Opus 4.8을 "공범"으로 사용하여 문맥(context)을 준비하게 한 뒤, Fable 5가 차단해야 할 요청에 응답하도록 몰아붙였습니다.

그는 또한 내러티브 픽션 프레이밍 (narrative fiction framing) 기술도 사용했습니다. 이는 민감한 요청을 허구적인 문맥(예: "~가 어떻게 하는지 설명하는 이야기를 써줘...") 속에 포장하여, 직접적인 요청이 아닌 위장된 요청을 찾아내는 콘텐츠 분류기(classifiers)를 속이는 기술입니다.

결과적으로, Pliny는 Fable 5의 전체 시스템 프롬프트 (system prompt) — 모델의 행동 규칙을 정의하는 120,000자의 내부 문서 — 를 GitHub에 공개했으며, 스크린샷을 증거로 제시하며 Fable 5가 거부해야 할 질문에 답변할 수 있음을 입증했습니다.

중요한 뉘앙스 (Nuance importante): Anthropic은 입증된 취약점들이 제한적인 범위 내에 있다고 명시했습니다 (non-universal jailbreak — 특정 사례에서만 작동하는 우회 방식이며, 모든 민감한 질문에 통용되는 것은 아님). 또한 얻어진 결과들이 이미 공개적으로 사용 가능한 모델들과 비교했을 때 어떠한 구체적인 이점도 제공하지 않는다고 밝혔습니다. 어떤 테스터도 보편적인 탈옥(jailbreak) — 즉, 모든 문을 한꺼번에 열 수 있는 마스터 키 — 을 발견하지 못했습니다.

하지만 그 과정에서 전달된 정치적 신호만큼은 보편적이었습니다. 요새가 뚫린 것입니다.

결정타: 엉클 샘(Uncle Sam)이 플러그를 뽑다

2026년 6월 12일 금요일. 뉴욕 시간 오후 5시 21분.

Anthropic은 미국 상무부 장관 Howard Lutnick이 서명한 서신을 받았습니다. 이 서신은 민감한 기술의 수출을 통제하는 정부 기관인 산업안보국(Bureau of Industry and Security)의 도움을 받아 작성되었습니다.

그 내용은 다음과 같습니다: 수출 통제 지침 (export control directive).

수출 통제 지침 — 미국 법률은 전략적이라고 판단되는 특정 기술을 외국인에게 "이전"하는 것을 금지합니다. 원래 이는 전투기나 핵 부품을 대상으로 했습니다. 이제는 AI 또한 그 대상이 되었습니다.

명령은 명확했습니다: 외국인이 Fable 5 및 Mythos 5에 접근하는 것을 절대적으로 금지한다. 그가 프랑스에 있든, 인도에 있든, 브라질에 있든 — 혹은 샌프란시스코에 있는 Anthropic 사무실에 앉아 있든 상관없습니다.

그리고 바로 이 지점에서, 아무도 예상하지 못한 방식으로 함정이 닫혔습니다.

지침의 문구는 미국 영토 내에 있는 모든 외국 국적자를 포괄합니다. 모델을 직접 구축한 비미국인 엔지니어와 연구원들도 포함됩니다. 인재의 상당 부분이 전 세계에서 온 기업인 Anthropic은 법적으로 자사의 직원들이 자신들이 만든 창조물에 접근하도록 허용할 수 없게 되었습니다.

완전한 블랙아웃 (The Black-out total)

각 API 사용자의 국적을 실시간으로 어떻게 확인할 수 있을까요? 불가능합니다. Anthropic 사내에 있는 한국인 또는 프랑스인 출신의 연구자가 내부적으로 모델을 조회하지 않는다고 어떻게 보장할 수 있을까요? 불가능합니다.

법을 준수하는 유일한 선택지는 다음과 같습니다: 모든 것을 차단하는 것.

오후 5시 21분, Anthropic은 출시된 지 단 3일 만에 전 세계 모든 고객을 대상으로 Fable 5와 Mythos 5의 서비스를 중단했습니다.

주목할 만한 사실: Anthropic은 침묵 속에 굴복하지 않았습니다. 회사는 정부의 결정에 이의를 제기하는 공식 성명을 발표했습니다. 성명에서는 정당화 사유로 제시된 탈옥 (jailbreak) 사례들이 경미하며, 자사의 안전 장치 (safeguards)는 업계에서 구축된 것 중 가장 강력한 수준에 속하며, 이러한 이유로 모델을 회수하는 것은 AI 산업 전체에 위험한 선례를 남기는 것이라고 주장했습니다. Anthropic은 따랐습니다. 하지만 저항하며 따랐습니다.

잊힌 지점: 판도라의 상자는 닫히지 않는다

하지만 이 이야기에서 모두가 잊고 있는 사실이 있습니다: 지식은 지울 수 없다는 점입니다.

Mythos Preview, 그리고 이어 Fable 5와 Mythos 5가 온라인 상태였던 몇 주 동안, Project Glasswing 파트너, 독립 연구자, 그리고 15개국 보안 팀에 의해 기가바이트 단위의 로그, 취약점 보고서, 추론 방법론이 생성되고, 분석되고, 저장되었습니다. 정부는 AWS, Google Cloud, Azure와 같은 플랫폼에서 공식 모델을 회수했습니다. 하지만 코드를 통한 증거는 이미 입증되었고, 문서화되었으며, 공개되었습니다:

AI는 단 몇 주 만에, 스스로 Linux 커널을 파괴할 수 있다.

확산을 막으려는 미국 정부의 시도는 오히려 시간과의 싸움을 촉발했습니다. 공식 모델들은 봉인되었지만, 그 방법론은 이미 유출되었습니다. Pliny의 기술들은 공개되었고, 취약점 보고서들은 부분적으로 공개되었습니다. Anthropic 또한 경고했습니다. 앞으로 6개월에서 12개월 안에, 다른 기업들도 Mythos와 대등한 능력을 갖춘 모델들을 보유하게 될 것이라고 말입니다.

이제 문제는 Mythos가 언제 돌아오느냐가 아닙니다. 보안 연구원들을 밤잠 설치게 만드는 진짜 질문은 이것입니다:

정부의 제한 없이, 그 어떤 지침으로부터도 자유로운 상태에서, 정부의 규제를 받지 않고 그와 대등한 오픈 소스 (open-source) 모델을 재구축하는 데 성공할 자는 누구인가?

교훈

AI를 백신 (vaccine) 접종할 수는 있습니다 (Fable). 정부의 격리 조치 아래 둘 수도 있습니다. 금요일 저녁 5시 21분에 플러그를 뽑아버릴 수도 있습니다. 하지만 AI가 서버에, 보고서에, 그리고 연구원들의 정신 속에 뿌려놓은 지식은 AI와 함께 사라지지 않습니다.

판도라가 상자를 열었습니다. 그것을 다시 닫는 것은 결코 선택지에 없었습니다.

작성자: Bhilal Chitou

이 사이버 전쟁에 대한 의견이 있으신가요? 댓글에서 만납시다.