중국의 Zhipu AI, 취약점 탐지에서 Claude Mythos와 대등한 성능을 보이며 글로벌 사이버 보안 우려를 높이다

AI 모델이 이제 인간 연구자보다 더 빠르게 소프트웨어 결함을 찾아내고 있으며, 서구권 연구소들이 이 분야를 선도하고 있다는 기사를 아마 읽어보셨을 것입니다. 하지만 최신 보고서들에 따르면 중국의 Zhipu AI가 취약점 탐지 (vulnerability-detection) 벤치마크에서 Claude Mythos와 대등한 수준에 도달하며 그 격차를 좁혔을 가능성을 시사합니다. 이 가이드에서는 실제로 무엇이 주장되고 있는지, 무엇이 확인되었고 무엇이 미확인 상태인지, 왜 AI의 평등한 경쟁 환경이 방어자들을 걱정하게 만드는지, 그리고 보안 팀이 지금 무엇을 해야 하는지에 대해 배우게 될 것입니다. 지속적인 보도를 위해 당사의 최신 사이버 보안 뉴스 허브를 북마크하세요.

핵심 요약 (Key Takeaways)
▸
Zhipu AI와 Claude Mythos 간의 벤치마크 동등성 주장은 확정된 사실로 취급되기 전에 독립적인 검증이 필요한 보고 단계에 머물러 있습니다.
▸
AI 취약점 탐지는 이중 용도 (dual-use)입니다. 결함을 패치할 수 있는 동일한 능력이 공격자가 결함을 발견하는 것을 도울 수도 있습니다.
▸
확산 (Proliferation)이 핵심적인 우려 사항입니다. 고급 탐지 능력이 전 세계적으로 퍼지면 방어자의 시간적 우위가 줄어듭니다.
▸
오픈 웨이트 (Open-weight) 모델은 유능한 보안 AI의 비용을 낮추어, 방어적 및 공격적 채택을 모두 가속화합니다.
▸
패치 속도가 그 어느 때보다 중요해졌습니다. AI가 공개 (disclosure)와 악용 (exploitation) 사이의 시간적 창을 단축할 수 있기 때문입니다.
▸
지속적인 공격 표면 (attack-surface) 모니터링은 더 빨라진 AI 지원 악용에 맞서는 가장 실질적인 방어 수단입니다.
▸
지정학 및 수출 통제가 프런티어 (frontier) 보안 AI에 접근할 수 있는 주체를 점점 더 결정짓고 있습니다.

Zhipu AI 대 Claude Mythos 취약점 탐지 사례란 무엇인가?
Zhipu AI 대 Claude Mythos 사례는 중국의 프런티어 (frontier) 모델이 취약점 탐지 (vulnerability-detection) 작업에서 선도적인 서구 보안 모델과 대등한 성능에 도달했다는 보고입니다. 현 단계에서 "대등함"이란 벤치마크 또는 평가 결과를 의미하며, 이는 확정된 사실로 간주되기 전에 독립적으로 검증되어야 합니다. 왜냐하면 벤더 및 제3자 벤치마크는 매우 서로 다른 것들을 측정할 수 있기 때문입니다.

Zhipu AI (Z.ai로도 알려짐)는 GLM 계열의 대규모 언어 모델 (LLM)을 개발하는 베이징 기반의 개발사이며, 중국에서 가장 저명한 AI 연구소 중 하나입니다. ReconShield의 지속적인 보도에서 언급되는 Claude Mythos는 AI 기반의 결함 발견 및 수정 (remediation)의 기준점으로 사용되는 보안 특화 프런티어 (frontier) 모델을 지칭합니다.

AI를 통한 취약점 탐지 (vulnerability detection)란 머신러닝 (machine-learning) 모델을 사용하여 코드, 설정 또는 실행 중인 시스템에서 보안 결함을 자동으로 찾는 것을 말합니다. 예를 들어, 모델은 함수를 읽고 안전하지 않은 메모리 작업을 인식하며, 충돌(crash)이나 원격 코드 실행 (remote-code-execution) 버그로 이어질 수 있는 정확한 라인을 표시할 수 있습니다. 이것이 더 넓은 관행에 어떻게 부합하는지 확인하려면, 취약점 스캐닝에 관한 당사의 전체 가이드를 읽어보십시오.

이 AI 취약점 탐지 이정표가 중요한 이유
이 이정표가 중요한 이유는 취약점 탐지가 이중 용도 (dual-use) 역량이기 때문입니다. 방어자가 버그를 수정하는 데 도움을 주는 것과 동일한 모델이 공격자가 버그를 먼저 찾는 데 도움을 줄 수도 있습니다. 그러한 능력이 더 이상 소수의 연구소에 집중되지 않을 때, 글로벌 사이버 공격과 방어의 균형은 변화합니다.

첫째, 확산은 방어자의 우위를 압축합니다. 역사적으로 방어자들은 결함의 발견과 무기화 (weaponization) 사이의 시간에 의존해 왔습니다. AI가 전 세계적으로 발견 속도를 가속화함에 따라 그 시간적 창(window)은 좁아지고 있으며, 이는 AI가 연구자들이 취약점을 더 빠르게 찾는 데 어떻게 도움을 주고 있는지에 대해 우리가 추적해 온 추세이기도 합니다.

둘째, 규모(scale)가 계산 방식을 바꿉니다. 규모를 체감할 수 있도록 설명하자면, 2024년에는 40,000개 이상의 CVE가 발표되었습니다 — 출처: CVE Program / NVD, 2024. AI는 인간 팀보다 훨씬 더 빠르게 이러한 백로그(backlog)를 분류(triage)할 수 있습니다. 예를 들어, AI 에이전트는 하룻밤 사이에 수천 개의 코드 저장소(code repositories)를 스캔하여 아침이면 결함 후보들을 찾아낼 수 있습니다.

셋째, 개념 증명(proof of concept)은 이미 존재합니다. Google의 AI 에이전트인 "Big Sleep"은 널리 사용되는 SQLite 데이터베이스에서 이전에 알려지지 않았던 실제 취약점을 발견했습니다 — 출처: Google Project Zero, 2024. 이 결과는 AI가 단순히 교과서적인 예시뿐만 아니라 실제 제로데이(zero-days)를 찾아낼 수 있음을 보여주었습니다. 우리는 Google이 AI가 생성한 제로데이 사이버 공격을 어떻게 저지했는지와 관련된 사례를 탐구한 바 있습니다.

Zhipu AI가 정말로 Claude Mythos와 대등한가? 확인됨 vs 미확인
본 게시물 작성 시점을 기준으로, Zhipu AI가 취약점 탐지에서 Claude Mythos와 대등하다는 주장은 독립적으로 확인된 결과가 아니라, 검토 중인 미확인 보고서로 취급하는 것이 가장 적절합니다. 벤치마크(benchmark)의 동등성은 사용된 데이터셋, 채점 방식 및 작업 정의(task definition)에 매우 민감합니다.

벤치마크 주장(benchmark claim)은 확인된 능력으로 받아들여지기 전에 독립적이고 재현 가능한 테스트를 필요로 하는 성능 주장입니다. 두 연구실이 서로 다른 것(하나는 합성 코드(synthetic code)에 대해, 다른 하나는 실제 저장소에 대해)을 측정하면서 둘 다 "최첨단(state-of-the-art)" 결과를 보고할 수 있습니다.

예를 들어, 어떤 모델은 알려진 취약점 패턴을 탐지하는 데는 탁월할 수 있지만, 실제 운영 소프트웨어에서 새로운 제로데이를 찾는 데는 어려움을 겪을 수 있습니다. 따라서 책임감 있는 해석은 다음과 같습니다: 확인된다면 타당하고 중요하지만, 아직 확정된 것은 아니다. AI 버그 사냥(bug-hunting)이 실제로 어떻게 작동하는지 이해하는 것은 마케팅과 측정 가능한 능력을 구분하는 데 도움이 됩니다.

벤치마크 성능과 실제 역량의 차이는 무엇인가?
벤치마크 성능(Benchmark performance)은 고정된 테스트 세트에서의 결과를 측정하는 반면, 실제 역량(real-world capability)은 모델이 살아있는, 무질서하고, 이전에 본 적 없는 시스템에 대해 어떻게 작동하는지를 나타냅니다. 이 둘 사이의 격차는 종종 매우 큽니다.

예를 들어, 선별된 취약점 데이터셋(curated vulnerability dataset)에서 높은 점수를 받은 모델이라도 실제 코드베이스(codebase)를 대상으로 할 때는 과도한 오탐(false positives)을 생성할 수 있습니다. 따라서 방어자들은 위협 인텔리전스(threat intelligence) 및 IOC 분석에서 분석가들이 가공되지 않은 신호(raw signals)를 다루는 것과 마찬가지로, 어떠한 "동등성(parity)" 주장이라도 자신의 환경에서 직접 검증해야 합니다.

AI 취약점 탐지는 실제로 어떻게 작동하는가?
AI 취약점 탐지는 대량의 코드, 보안 권고(security advisories), 익스플로잇(exploit) 데이터를 사용하여 모델을 학습시킴으로써 소프트웨어 결함과 관련된 패턴을 인식할 수 있도록 작동합니다. 그런 다음 모델은 새로운 코드나 시스템을 검토하고, 종종 설명과 제안된 수정 사항을 함께 제공하며 취약할 가능성이 있는 약점을 표시합니다.

AI로 강화된 정적 및 동적 분석
AI는 두 가지 고전적인 기술인 정적 분석(static analysis, 코드를 실행하지 않고 읽는 방식)과 동적 분석(dynamic analysis, 소프트웨어가 실행되는 동안 관찰하는 방식)을 강화합니다. 모델은 기존 스캐너(scanners) 위에 문맥(context), 우선순위 지정(prioritization), 그리고 자연어 설명(natural-language explanations)을 추가합니다.

예를 들어, AI 레이어는 500개의 경고 목록을 그대로 반환하는 대신, 악용될 가능성이 가장 높은 세 가지 문제를 순위 매기고 그 이유를 설명할 수 있습니다. 이는 현대적인 공격 표면 관리(attack surface management) 이면에 있는 우선순위 지정 로직을 반영합니다.
더 읽어보기:

Insights

중국의 Zhipu AI, 취약점 탐지에서 Claude Mythos와 대등한 성능을 보이며 글로벌 사이버 보안 우려를 높이다

요약

핵심 포인트

댓글

로그가 곧 에이전트다

Google의 OKF가 RAG 스택 전체를 조용히 무너뜨릴 수도 있는 이유

Qwen 3.6 27B가 로컬 개발의 최적점(Sweet Spot)인 이유

코드를 위한 RAG: 왜 함수 단위 청킹(Chunking)이 라인 단위 청킹보다 나은가

Google의 OKF가 RAG 스택 전체를 조용히 무너뜨릴 수도 있는 이유

Qwen 3.6 27B가 로컬 개발의 최적점(Sweet Spot)인 이유

코드를 위한 RAG: 왜 함수 단위 청킹(Chunking)이 라인 단위 청킹보다 나은가