Mythos가 보안 업계를 놀라게 했을 때: 취약점을 찾아내고 악용하는 AI

2026년 초, Fable 5가 대중에게 출시되기 전, Anthropic의 Mythos급 모델들이 취약점을 찾아내고 악용하는 초인적인 능력으로 사이버 보안 업계를 불안하게 만들었다는 보고가 있었습니다. 취약점을 찾는 것이 직업인 사람으로서, 저는 이에 대해 복잡한 감정을 느꼈습니다. AI가 공격 보안 (offensive security) 분야에서 진정으로 뛰어나진다는 것이 무엇을 의미하는지, 그리고 왜 그 대응책이 부정(denial)이 아닌 방어적 채택 (defensive adoption)이어야 하는지에 대해 말씀드리겠습니다.

"취약점을 잘 찾는 것"이 실제로 의미하는 것

알려진 취약점 클래스 (vulnerability class)를 설명할 수 있는 모델과, 익숙하지 않은 코드베이스를 가져와 아직 아무도 지적하지 않은 새로운 버그를 찾아낼 수 있는 모델 사이에는 차이가 있습니다. 전자는 학습 보조 도구입니다. 후자는 공격자와 방어자 사이의 균형을 바꾸는 능력입니다.

Mythos 라인은 두 번째 카테고리에 충분히 진입했기에, Anthropic은 제한 없는 버전(Mythos 5)을 소수의 사이버 방어자(cyberdefenders)와 인프라 제공업체로 제한한 반면, 대중에게는 강력한 안전 장치(safeguards)가 적용된 동일한 모델인 Fable 5를 제공했습니다. 이러한 안전 장치는 특히 사이버 보안과 생물학 분야를 차단하며, 위험도가 높은 프롬프트에 대해서는 능력이 낮은 모델로 전환됩니다. 이러한 제품 결정 자체가 하나의 신호입니다. 즉, 그 능력이 격리할 만큼 충분히 실재했다는 것입니다.

방어자의 딜레마

만약 모델이 악용 가능한 버그를 찾아낼 수 있다면, 이는 방어자와 공격자 모두에게 똑같이 도움이 됩니다. 방어자는 제품을 출시하기 전 자신의 코드에 모델을 실행합니다. 공격자는 다른 모든 사람의 배포된 코드에 모델을 실행합니다. 동일한 능력이지만 의도는 정반대입니다.

올해의 보고서들은 이를 입증합니다. AI는 취약점 발견 (exploit discovery)의 문턱을 낮추고 있으며, 자동화된 정찰 (automated reconnaissance)은 점점 더 오래되고 검증되지 않은 스마트 컨트랙트 (smart contracts)의 약점을 스캔하고 있습니다. 공격자들은 이미 공격 측면에서 AI를 사용하고 있습니다. 그들은 허가를 기다리거나 안전 장치를 걱정하지 않습니다.

가치를 지닌 코드를 배포하는 모든 이들에게 이것은 딜레마입니다. Web3에서는 모든 컨트랙트(Contract)가 가치를 지니고 있습니다. 공격자들은 버그를 찾아내는 AI를 보유하고 있으며, 그들이 그렇지 않은 척하는 것은 전략이 될 수 없습니다. 유일한 대응책은 동일한 종류의 도구를 사용하여 스스로 먼저 버그를 찾아내는 것뿐입니다.

안전 장치(Safeguards)가 문제를 완전히 해결하지 못하는 이유

Anthropic의 Fable 5 안전 장치는 고위험 사이버 보안 프롬프트(Prompt)를 차단하고 더 안전한 모델로 전환합니다. 이는 공개 배포를 위한 책임감 있는 조치입니다. 하지만 방어자들에게는 구멍이 뚫린 경계와 같습니다. 만약 제가 제 컨트랙트에 대해 정당한 보안 분석을 수행하는데, 그 프롬프트가 안전 장치 입장에서 적대적으로 보인다면, 저는 조용히 성능이 저하된 답변을 받게 됩니다. 안전 장치는 저의 방어적 감사(Audit)와 공격자의 정찰(Reconnaissance)을 구분할 수 없습니다. 프롬프트 수준에서는 두 가지가 동일해 보일 수 있기 때문입니다.

따라서 공개된 안전 장치 모델은 방어를 위한 실제 도구이긴 하지만 무뎌진 도구이며, 제한 없는 능력은 소수의 승인된 방어자들에게만 주어져 있습니다. 반면, 공격자들은 입수 가능한 어떤 도구든 사용하여 이러한 안전 장치에 전혀 구애받지 않습니다. 이러한 비대칭성은 불편하며, 저는 이 문제가 완전히 해결되었다고 생각하지 않습니다.

이것이 내 작업 방식을 어떻게 바꾸는가

AI가 버그를 찾는 능력이 좋아졌다고 해서 제가 덜 주의를 기울이는 것은 아닙니다. 오히려 기준이 높아졌기 때문에 더 체계적으로 변하고 있습니다. 구체적으로는 다음과 같습니다:

내 공격 표면(Attack Surface)에 대해 먼저, 공격적으로 AI 분석을 실행합니다. 모델이 버그를 찾을 수 있다면, 다른 누군가의 모델이 운영 환경(Production)에서 버그를 찾기 전에 제 버그를 먼저 찾길 원합니다. 이제 방어는 부분적으로 "공격자의 도구와 경주하는 것"이 되었습니다.
검증되지 않았거나 오래된 컨트랙트를 이전보다 더 높은 위험으로 간주합니다. 왜냐하면 그것들이 바로 자동화된 공격자 정찰의 표적이기 때문입니다. 검증(Verification)과 최신성(Freshness)은 이제 단순한 위생 관리가 아니라 위협 모델(Threat Model)의 일부입니다.
AI의 깨끗하다는 판정을 신뢰하지 않습니다. 버그를 찾을 수 있는 모델은 버그를 놓칠 수도 있으며, 안전 장치가 적용된 모델은 제가 가장 중요하게 생각하는 프롬프트에 대해 조용히 성능을 낮출 수 있습니다. AI는 강력한 보조 도구일 뿐, 최종 결론이 아닙니다. 저는 여전히 수동으로 검토합니다.

보안 커리어에 대한 솔직한 성찰

사람들은 AI가 취약점(vulnerabilities)을 찾아내는 것이 보안 업무를 쓸모없게 만드는 것인지 묻습니다. 하지만 결과는 그 반대입니다. AI는 무엇이 철저한 검토(thorough review)에 해당하는지에 대한 기준(floor)을 높이며(이제 당신은 공격자가 당신의 코드에 유능한 모델을 실행했다고 가정해야 합니다), AI가 갖지 못한 판단력의 가치를 높입니다. 즉, 무엇이 중요한지 결정하고, 비즈니스 맥락(business context)을 이해하며, 익스플로잇(exploit)의 경제적 비용을 따져보고, 보호 조치(safeguarded)가 적용된 모델이 드러내기를 거부한 것들을 포착하는 능력 말입니다.

이러한 도구의 사용을 거부하는 감사자(auditor)는 공격자가 양손을 다 사용하는 동안 한 손이 묶인 채로 감사를 수행하는 것과 같습니다. 반면, 한계와 조용한 폴백(silent fallbacks)을 완전히 인지한 상태에서 자신의 코드에 이러한 도구를 능숙하게 사용하는 감사자는 유일하게 합리적인 일을 하고 있는 것입니다. 즉, AI를 갖춘 적에게 AI를 갖춘 방어로 맞서며, 어느 쪽의 모델도 갖지 못한 인간의 판단력을 유지하는 것입니다.

Mythos가 보안 업계를 놀라게 한 데에는 타당한 이유가 있습니다. 이에 대한 대응은 공포가 아닙니다. 동일한 역량을 갖추어, 그것을 먼저 자신의 코드에 적용하고, 그것이 알려주는 내용을 검토하는 일을 결코 멈추지 않는 것입니다.