Project Glasswing: 초기 업데이트

Codex Security를 실험 삼아 켰다가 1주도 안 돼서 팀 전체에 필수 도구가 됨
정확도가 놀라울 정도였고, 기존 코드에서 보안 이슈를 많이 찾아냈으며, 커밋할 때마다 계속 잡아줌
우리 기준으로는 약 90% 정확도이고, “Low”로 표시된 항목도 파고들어 보면 실제로 악용 가능했던 경우가 많았음
이런 실수는 주니어부터 시니어까지 모두 하는 버그의 한 종류라서, 앞으로는 AI로 코딩하고 AI로 리뷰하고 AI로 취약점을 찾는 흐름이 개발 생명주기의 일반적인 일부가 될 것 같음

그럼 Claude Code가 보안 버그를 만들고, Claude Security가 찾고, Claude Code가 수정안을 만들면서 토큰을 쓰고, 수익을 내는 구조라는 건가?

비슷한 경험을 했음
UI가 조금 헷갈리는데, “스캔 5개”라고 표시되지만 스캔 1개는 저장소의 기본 브랜치를 지속적으로 감시하는 걸 뜻함
영향도가 높은 발견 항목은 거의 전부 정확했고, 특히 문서 품질과 수정 제안이 좁고 정확한 점이 놀라웠음
Codex는 보통 필요한 것보다 코드를 꽤 많이 만드는 데 익숙했지만, 보안 모델의 수정안은 자주 10줄 미만이고 정확한 위치만 겨냥함
베타가 끝나면 꽤 비싸질 것 같지만, 기업 입장이라면 바로 도입하고 싶을 정도로 좋음

LLM에서 본 문제 중 하나는 “안전”을 명분으로 불필요한 코드를 추가하고, 예전에는 유용했지만 지금은 표준 라이브러리가 제대로 처리하는 것들을 자신 있게 잔뜩 생성한다는 점임
코드에서는 적을수록 좋다고 보는 편이라, 이런 흐름이 꽤 답답함
이 함정을 어떻게 피함?

gpt-5.5-cyber를 오케스트레이터로 두고 deepseek-v4-flash나 다른 빠르고 저렴한 모델을 작업자 모델로 쓰는 구성을 추천함
이 구성으로 꽤 좋은 결과가 나오고 있음

Anthropic의 업데이트와 여기 일부 과열된 반응을, curl 유지보수자 Daniel Steinberg의 최근 평가와 어떻게 조화시켜야 할지 잘 모르겠음
“이 설정[Mythos]이 Mythos 이전 다른 도구들보다 특별히 더 높거나 진보된 수준으로 이슈를 찾아낸다는 증거는 보이지 않는다. 이 모델이 조금 더 나을 수는 있지만, 그렇다 해도 코드 분석에 의미 있는 변화를 만들 정도로 낫지는 않다.” https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-v...

맞는 말이고, 유효한 데이터 포인트임
하지만 영국 정부 보고서도 데이터 포인트이고 Firefox 보고서도 데이터 포인트라서, 현세대 모델보다 실제로 상당히 낫다는 신호를 줌
어쩌면 curl이 대부분의 프로젝트보다 훨씬 더 잘 단단해진 코드일 수도 있음
어쨌든 크게 중요하지는 않은데, Anthropic도 인정하듯 다음 수준의 모델들이 오고 있고 Mythos는 그중 하나일 뿐임
현세대 모델도 복잡한 시스템에서 데이터 흐름을 추적하는 데 이미 잘하고, 그 능력이 한계에 도달했다고 볼 이유가 없음
1년 안에 취약점을 저렴하게 찾을 수 있는 상용 모델이 여러 개 나올 가능성이 커 보임
반면 이런 이슈의 해결책 설계에서는 훨씬 덜 진전된 것 같음

Daniel의 요지를 오해하는 경우가 있는 것 같지만, 글 전체 맥락에서 보면 더 분명함
도구 전반은 보안 버그를 찾는 능력이 많이 좋아지고 있고, Daniel의 사용 경험만으로는 Mythos 자체가 거대한 도약인지 불명확했지만, Mythos 세대 LLM은 확실히 그렇다고 봄
다만 Daniel은 Mythos를 다소 간접적으로 사용했음
Mythos 논쟁에서 얻은 결론은, a) Anthropic의 GPU 부족 때문에 Mythos 접근을 제한할 수밖에 없었을 가능성이 있고, 그래서 일반 공개 여부 계산에도 영향을 줬을 것이며, b) Mythos나 비슷한 모델로 버그를 찾는 일은 여전히 비쌈
curl에 2만 달러나 10만 달러 규모의 Mythos 실행을 했다면 Firefox 같은 다른 프로젝트와 비슷한 수준의 이슈가 나왔을 수도 있지만, Daniel은 그런 접근 권한을 받지 못했음
오늘 LinkedIn에 올린 일반 업데이트가 더 넓은 맥락을 보여줌 https://www.linkedin.com/feed/update/urn:li:activity:7463481...
“이번 curl 릴리스 주기의 절반도 지나지 않았는데 이미 확인된 취약점이 11개이고, 평가 대기 중인 것이 3개 남아 있으며 새 제보가 하루 1개가 넘는 속도로 계속 들어오고 있다.”
“한 번의 릴리스에서 CVE 11개를 발표한 것은 2016년 Cure 53의 첫 보안 감사 이후 기록이다.”
“내가 기억하는 curl 역사상 가장 강도 높은 시기다.”

curl은 더 많은 눈이 보고, 더 많은 도구가 투입됐고, 소프트웨어의 99%보다 테스트가 잘 되어 있으며 아마 개발도 더 잘 되어 있음
전형적인 사례가 전혀 아니어서, 그런 요인이 있었을 가능성이 있어 보임
물론 편향이 있는지 확신할 수는 없고, Daniel이 그냥 맞을 수도 있음

서로 다른 사람이 서로 다른 경험을 해도 모순은 아님
curl 소스 코드가 애초에 꽤 깨끗했을 수도 있음

Daniel은 몇 달, 어쩌면 몇 년 동안 보안 연구자와 여러 자동화 도구로부터 얼마나 많은 검증 압력을 받는지 계속 써왔음
curl이 Mythos의 평균 사례일 거라고 기대하지 않음

Mythos를 두고 “그냥 기존 공개 모델에서 안전장치를 뺀 것”이라는 식의 냉소가 많았지만, 이 수치는 다르게 보임
“높음 또는 치명 등급 취약점 1,752개가 6개의 독립 보안 연구 회사, 또는 소수의 경우 우리 자체 평가를 통해 신중히 검토됐다. 그중 90.6%(1,587개)가 유효한 참양성으로 입증됐고, 62.4%(1,094개)는 높음 또는 치명 심각도로 확인됐다.”
Opus, Codex, 오픈소스 모델로 취약점 스캔을 해본 사람이라면 참양성 비율과 발견량이 분명한 단계 변화라는 걸 알 수 있음[0]
Glasswing의 약 50개 파트너 대부분은 이전에도 다른 모델로 하네스를 돌려봤고, 대체로 “와, 이건 다르다”는 반응을 보였음
이제 문제는 2단계와 3단계 접근 권한이 어떤 모습일지, 어떤 시스템군을 먼저 보호할지임
라우터, 방화벽, SaaS, ERP, 공장 제어기, SCADA, 제로 트러스트 VPN 게이트웨이, 통신 장비와 네트워크, 의료기기까지 할 일이 너무 많음
그래서 Mythos는 당분간 비공개로 남을 거라고 봄
보호해야 할 공격 표면이 너무 넓고, 분류하고 고치고 배포해야 할 것이 너무 많음
이는 Anthropic에도 맞을 수 있는데, 비공개 모델은 증류할 수 없기 때문임
또한 발견·분류·수정 데이터에서 모델 개선의 폭주 효과가 생김
이미 지금까지 모인 것 중 가장 강력하게 큐레이션된 공격 데이터 말뭉치일 가능성이 높고, 앞으로 더 좋아질 것임
중국 기업이 조만간, 또는 영원히 접근권을 받는 그림은 잘 안 보임
곧 CISA가 감사를 의무화하고, Mythos에 견디는 VPN 게이트웨이나 가정용 라우터를 사려면 미국산[1]을 사야 하는 세상이 올 수도 있음
[0] 일반 감사 도구의 약 30% 안팎과 비교
[1] 또는 동맹국산

발견·분류·수정 데이터 말뭉치는 미국 기업이든 아니든 모든 경쟁자가 접근할 수 있음
이걸 복제할 수 없다는 말은 믿기 어려움
CVE와 패치처럼 주석 달린 데이터가 이미 충분히 있고, Mythos 덕분에 더 늘어나고 있으니, 이 시나리오에 맞춰 강화학습을 하면 Mythos 접근 없이도 취약점 탐지 성능을 높일 수 있다고 봄

Mythos 접근 권한이 있는 미국 보안 회사에 외주를 주면 안 될 이유가 없어 보임

GPT-2 시절이 떠오름
OpenAI가 “인류가 아직 준비되지 않았다”며 처음으로 모델 접근을 제한했는데, 그 모델은 시를 잘 쓰거나 하는 정도였음
그 이후 OAI/Anthropic의 모델 발표 중 비슷한 문구를 쓰지 않은 것을 기억하지 못함
유출됐다는 모델 발표도 마케팅이고, 위험하다는 것도 마케팅이고, 세상이 준비되지 않았다는 것도 마케팅임
접근권을 받은 이들이 “와”라고 말하는 것 역시 믿거나 말거나 마케팅임
이미 일반적으로 사용할 수 있는 상위 5~10개 모델로 같은 결과를 얻을 수 있음
Mythos는 이전 아이디어가 민주화된 뒤 Anthropic이 새 아이디어를 팔기 위한 방식임

비공개 모델은 외부에서 증류할 수 없더라도 내부에서는 가능함 Sonnet 4.8에서 대단한 걸 기대해도 될 듯함

코드베이스에 아직 정적 분석과 린터를 적용하지 않고 있다면, 왜 비싼 LLM 도구를 적용하려 하는지 먼저 물어봐야 함
이런 도구가 정적 도구가 못 잡는 취약점을 못 잡는다는 뜻은 아니고, 잡을 수 있다고 봄
다만 우리는 이미 흔한 취약점의 넓은 영역을 자동으로 잡을 능력이 있는데도, 비용 같은 이유로 선택하지 않아 왔음
이미 여러 겹의 분석과 린팅을 적용하는 팀이 그 위에 이걸 추가하려는 거라면 전적으로 찬성함

대부분의 이슈는 비즈니스 로직에 있고, 정적 분석기가 그런 건 잡지 못하기 때문임

정적 분석은 처음부터 끝까지 동작하는 원클릭 익스플로잇을 만들어주지 않음
FAANG에 있는데도, 우리 정적 분석 도구조차 실제로 도달 가능한 이슈가 몇 개인지 식별하는 데 훌륭하지 않음
이상적으로는 둘 다 써야 함
정적 분석을 하네스의 일부로 가진 AI 모델이 각 잠재 발견 항목을 평가하는 방식이 좋음

정적 분석은 종종 거짓 양성을 많이 보여줌
더 지능적인 도구는 제한된 엔지니어링 시간을 낭비하지 않게 도와줄 수 있음

다수 개발자에게 가장 솔직한 답이 다운보트되고 플래그까지 먹은 게 꽤 마음에 듦
지금 이걸 하는 대부분은 정적 분석 도구를 불필요한 추가물로 봤기 때문에 쓰지 않았음

지금 당장 고쳐줬으면 하는 취약점은 GitHub에서 도난당한 3,800개 저장소에 있는 것들뿐임
“인터넷을 만드는 소프트웨어의 취약점”보다 “인터넷을 만드는 소프트웨어가 릴리스를 만드는 데 쓰는 플랫폼”이 솔직히 더 높은 우선순위임
그 내부 저장소를 산 사람들이 GitHub에 침입해 소프트웨어 릴리스를 자르거나, 원격에서 GitHub Actions를 오염시키는 방법을 찾는다면 모두가 아주 심각한 상황에 빠짐
그 3,800개 저장소 안에는 아마 npmjs.org 자체도 있을 가능성이 높다는 걸 잊으면 안 됨

소비자용 최전선 모델로 법률 기술에서 우리가 “lexploits”라고 부르는 걸 개발해왔는데, 통합된 파이프라인 전반의 버그를 찾는 데 말도 안 되게 뛰어남
완화책을 만드는 데도 놀랄 만큼 잘함
보안 취약점도 중요하지만, 법률에서는 에이전트의 법적 맥락 충실도를 보호하는 지식 보안이라는 개념을 제시함
소프트웨어 버그는 소프트웨어 엔지니어가 관리하므로 훨씬 다루기 쉬워 보이고, 우리가 찾는 파이프라인 “취약점”은 그렇지 않음
법률 문서가 겉보기와 다른 한 가지 경로에 대해 여기 조금 써둠: https://tritium.legal/blog/noroboto
지금 노출된 지식 영역은 이런 식으로 많을 것이고, 대부분 인력이 부족하며 비기술자가 관리하기 때문에 더 걱정됨
Mythos가 필요하지도 않음

“다음으로 미국 및 동맹국 정부를 포함한 핵심 파트너와 협력해 Project Glasswing을 추가 파트너로 확대하겠다”는 말은, 일반 공개 전에 큰돈을 벌겠다는 뜻으로 보임
좋은 전략임

믿기 어렵다
이 도구가 찾는 것 중 상당수는 그냥 틀렸고, 코드의 상위·하위 계층 때문에 실제 취약점으로 악용될 가능성이 묻혀 있는데도 참으로 보고되는 경우가 있음
성능과 보안 사이의 트레이드오프이기도 하고, 언제나 그랬음
추가 검사와 다른 조치는 실제로 보안 목적상 수행되어야 함
마케팅은 언제나 훌륭하지만, 많은 사람이 가진 장밋빛 관점은 대리만족처럼 어긋나 보임

글에서는 모든 취약점이 실제로 종단 간 악용 가능하고, 1,000개 넘는 항목이 독립적으로 치명적이라고 검증됐다고 설명함
도달 불가능한 취약점이 아님

“이런 버그를 고치는 병목은 분류하고, 보고하고, 패치를 설계·배포할 사람의 역량이다. Mythos Preview 덕분에 처음 발견하는 일은 훨씬 더 단순해졌다.”
이건 항상 병목이었음
자동화 도구는 취약점 표시를 좋아하지만 거의 전부 거짓 양성이고, 사람이 분류하고 평가해야 함
그래도 괜찮음
아예 놓치는 것보다 신중한 검토 후 거짓 양성을 닫는 편이 낫다고 봄
사람을 병목이라고 부르는 건 적절하지 않음
사람은 과정의 필수 요소이고, Mythos도 그 과정의 촉매가 될 것임

10년 전 대부분의 취약점 제거에서 사람의 수정 작업이 병목이었다는 건 분명히 사실이 아님
취약점을 입증하는 일이 해결하는 일보다 훨씬 어려웠음

오늘 꽤 재미있는 하루였음
AF_ALG가 꺼져 있고 nscd가 켜진 시스템에서 Dirty Frag로 루트 권한을 얻기 위한 패치를 deepseek-v4-flash 하위 에이전트들에게 만들게 했음
원래 공개된 익스플로잇은 동작하지 않았지만, 패치한 것은 아주 잘 작동했음
적당한 지능의 하위 에이전트 100개면 Mythos와 같은 결과를 낼 수 있다고 아직 믿고 있음
언젠가 Mythos를 직접 써보고 이 생각이 깨질 준비도 되어 있고, 여기 다른 사람들도 Mythos를 써봤을 거라고 봄

그럴 가능성은 있지만, 하위 에이전트 100개라고 하면 시간당 100달러가 드는 구성이고 Mythos는 취약점 하나를 찾는 데 2만 달러가 든다는 이야기임
그래서 질문은 “더 멍청한 모델도 이걸 할 수 있느냐”가 아니라, Mythos 추론으로 익스플로잇 하나를 찾는 비용이 GPU 5,000시간이라면 더 멍청한 모델로는 GPU 시간이 얼마나 드느냐임

Project Glasswing: 초기 업데이트

요약

핵심 포인트

댓글