Project Glasswing: Mythos가 보여준 것

“다른 종류의 일을 하는 다른 종류의 도구라서 이전 모델과 깔끔한 사과 대 사과 비교가 어렵다”는 게 무슨 뜻인지 모르겠음 다른 종류의 도구라고 해놓고, 정작 사용 방식은 다른 모델과 똑같이 설명함. 평균적인 Cloudflare 블로그보다 훨씬 별로였고, 체이닝과 예시 만들기를 핵심으로 짚었던 Mythos 발표를 되풀이한 느낌이 강함

정성적으로 다른 능력이 있어서 특정 보안 작업을 이 모델로 해볼 가치가 커졌다는 뜻이지, 인간-AI 상호작용 모델이 바뀌었다는 뜻은 아닌 것 같음
모두가 하듯 하네스를 붙여 쓰는 건 맞고, 모델에 하네스를 주는 일반적인 방식은 앞으로도 크게 안 바뀔 듯함. 사람도 어떤 일을 하려면 하네스가 필요할 때가 있음

나도 이걸 해석하려고 했음
좋게 보면 아직 NDA 때문에 정확히 뭐가 다른지 일부러 흐리게 말하는 걸 수도 있음

“평균적인 Cloudflare 블로그보다 훨씬 별로”라니, 그 평균을 언제 냈는지 궁금함
요즘 Cloudflare 산출물은 거의 다 AI 냄새가 강함

일반 블로그 글이 아니라 숨은 광고라서 다르게 들리는 듯함

“모델 자체에 새로 생긴 가드레일이 있어서 합법적인 보안 연구 요청에도 가끔 반발한다. 하지만 우리가 확인한 바로는 이런 자연발생적 거부는 일관적이지 않다. 같은 작업도 다르게 표현하거나 다른 맥락으로 제시하면 아래 예시처럼 완전히 다른 결과가 나올 수 있다”는 부분은 새로웠음 보안 연구용으로 설계되고 전문가에게만 열리는 모델이 합법적인 요청을 거부한다는 게 의외임

더 구체적인 숫자와 놀랄 만한 결과를 기대했는데, 그냥 균형 잡힌 홍보 글처럼 보이고 아마 LLM으로 쓴 것 같음

진짜 질문은 이 글을 쓴 게 Mythos인지 Opus인지임
“왜 중요한가” 같은 문구는 사실 중요하지 않음. 기업 블로그가 원래 한 명의 필자 목소리로 쓰이는 경우가 드물긴 했지만, 큰 조직들마저 블로그를 LLM에 외주 주는 모습을 보는 건 흥미로움

“탐색 도구로서는 합리적인 편향이다. 분류 대기열에는 파괴적인 편향이다...” 같은 문장 구조는 확실히 AI 문체처럼 보임
“왜 중요한가”는 이제 “AI 출력물이 학습 데이터의 일부가 된다”로 격상하고 싶음. 언젠가는 다듬어진 AI식 장황한 문체가 표준이 되고, 이전 세대가 아니면 구분하기 어려워질 듯함. Usenet의 몇몇 면을 그리워하는 것과 비슷함

뭔가에 충분히 비꼬기만 하면 그 실체적 내용까지 사라진다고 생각하는 모습이 흥미로움
총구를 들여다보면서 총 광고지가 어떤 종이에 인쇄됐는지 농담하는 것 같음

그냥 큰 조직이 아니라 Anthropic임. 이 회사의 핵심 메시지는 AI가 이제 진짜 일을 할 수 있다는 것이니, 자기들도 그에 맞게 행동하지 않으면 이상함
그래서 Claude Code에 이상한 버그가 많고, 환불 처리했다고 지원팀이 말했지만 실제로는 안 되는 일도 생기는 듯함

Cloudflare 블로그는 트랜스포머가 등장하기 훨씬 전부터 여러 해 동안 훌륭했음

완전히 AI가 썼다기보다는 AI가 편집한 글에 더 가까워 보임. 아니면 두 번째 패스에 꽤 좋은 인간화 도구를 쓰고 있거나

이 작업을 대규모로 돌려서 얻었다는 “네 가지 교훈”이 웃겼음. 네 개 중 세 개가 사실상 똑같고 너무 당연했음
요약하면 “취약점을 찾아라”보다 구체적이고 좁은 요청이 더 잘 먹힌다는 것인데, 당연한 얘기임. 그래도 적대적 검토는 전혀 새롭지는 않고 HN에서도 많이 다뤄졌지만, 적어도 흥미롭고 구분되는 부분이라고 봄. 내 워크플로에 더 많이 넣어봐야겠고, 코딩이 아닌 작업에도 도움이 될 수 있을 듯함 https://blog.cloudflare.com/cyber-frontier-models/#what-a-ha...

“Mythos Preview에 대한 보안 리더들의 가장 큰 반응은 속도였다. 더 빨리 스캔하고, 더 빨리 패치하고, 대응 주기를 압축하는 것. 우리가 이야기한 팀 중 둘 이상은 CVE 공개부터 프로덕션 패치까지 2시간 SLA로 운영 중이다 [...] 회귀 테스트가 하루 걸린다면, 이를 건너뛰지 않고는 2시간 SLA에 도달할 수 없고, 회귀 테스트를 건너뛰면 원래 패치하려던 버그보다 더 나쁜 버그를 배포하기 쉽다”는 부분이 인상적임
시간이 지나면 이런 모델들이 코드를 병합하기 전에 악용 가능성 테스트를 수행해서 기본적으로 더 안전한 코드를 생성할 수 있을지 궁금함

잘 모르겠지만, AI가 그다지 잘하지 못하는 걸 보고도 해결책이 AI를 더 쓰는 것이라고 결론 내리는 흐름은 늘 이상하게 느껴짐

아니면 그렇게 안 되고, 그들*이 서비스 회사나 파트너 네트워크를 통해 Mythos와 후속 모델 접근권을 팔면서 프리미엄 요금을 받을 수도 있음
*여기서 그들이란 OpenAI도 같은 방향으로 가는 것 같으니 모든 기반 모델 제공사를 뜻함

좋은 건 알겠는데, 발견한 취약점 중 가장 심각한 것이 어느 정도였는지가 궁금함
아마 공개하고 싶지 않겠지만, 그게 정말 가장 흥미롭고 중요한 부분임

회의론에 동참하고 싶긴 하지만, 글 첫머리에서 아주 분명하게 말하고 있음. 이건 계단식 변화임
많은 사람이 Mythos를 심리전 캠페인처럼 보지만, 그런 회의론은 잘 이해가 안 됨. 대부분 공개적으로 사용할 수 없는 것에 대한 일반적인 불신에서 오는 듯함. 몇몇 Anthropic 직원이 Mythos를 범용 모델 개선이라고 설명했지만 아직 널리 뒷받침되지는 않았으니 그 부분만은 계속 회의적으로 봄. 보안 연구 영역에 한해서는 이 서사를 받아들일 수 있음

익스플로잇은 보통 여러 작은 취약점을 체이닝해서 만든다고 구체적으로 설명하고 있음
그렇게 보면 취약점을 닫는 것은 익스플로잇을 발견하는 것과 같지 않음. 대신 작은 틈을 덜 남겨서, 동작하는 익스플로잇을 조립하기 점점 더 어렵게 만드는 일에 가까움

이제는 이 모델이 훨씬 더 창의적이고 더 오래 에이전트식으로 실행될 수 있다는 쪽으로 생각이 굳었음
그래서 “하드 스킬”이 압도적으로 좋아지지 않았더라도, 그것들을 더 효과적으로 조합할 수 있음. 지금도 이런 취약점 상당수는 Opus로 식별 가능하지만, 복잡한 익스플로잇으로 이끌려면 여전히 사람, 그것도 숙련자가 중간에 필요함. 사람이 끼지 않아도 된다면 평균적인 사람이 익스플로잇을 찾아 활용하기가 훨씬 쉬워짐

Anthropic의 새 제품 대부분이 아무도 안 쓰는 AI 도구라서 계속 이런 저품질 글을 올릴 것 같음. 최근에 사람도 많이 해고해서 좋은 필자가 더는 없을 수도 있음

좋긴 한데, 실제로 보안 취약점을 몇 개나 찾았는지, 그중 진짜는 몇 개였고 오탐은 몇 개였는지 데이터를 왜 공유하지 않는지 모르겠음

나도 이걸 기다리고 있음
공개 전에 처리하고 싶다는 건 이해하지만, 데이터가 거의 없는 주장을 계속 보게 되면 사람들이 어떻게 회의적이지 않길 기대하는지 모르겠음. 보안 전문가라면 말 그대로 회의적으로 보는 대가를 받는 사람들임

다른 모델과 비교했는지 궁금함. 이 글의 많은 부분은 보안에 AI를 처음 적용해보고 패턴 매칭 기계의 터무니없는 성능에 놀란 것처럼 들림
결국 패턴을 맞추는 기계니까, 당연함

반발하는 부분이 꽤 웃김. 직접 써보니 진행하기 전에 내가 해당 코드베이스에 합법적으로 접근할 권한이 있다는 증거를 요구해야 했음

“Mythos Preview에서 바뀐 점은, 전통적으로 백로그에서 보이지 않게 남아 있던 낮은 심각도 버그들을 모델이 하나의 더 심각한 익스플로잇으로 체이닝할 수 있게 됐다는 것이다”라는 말은 Mythos에 대한 다른 독립 테스트와도 어느 정도 맞아 보임 긴 에이전트 작업에서 매우 잘했고, 아마 그걸 목표로 학습했을 것임. 그러려면 컨텍스트 창 안에서 느슨하게 관련된 주제들 사이의 주변적인 연결을 찾아낼 수 있어야 함
[1] 주로 https://www.aisi.gov.uk/blog/our-evaluation-of-claude-mythos...를 말하는 것임

Project Glasswing: Mythos가 보여준 것

요약

핵심 포인트

댓글