진짜 미쳤어. Anthropic이 아직 출시하지 않은 AI "Claude Mythos"가 해커 능력을 측정하는 벤치마크에서 다른 모델들을…
요약
Anthropic이 아직 출시하지 않은 AI 모델 'Claude Mythos'가 해커 능력을 측정하는 벤치마크인 ExploitBench에서 다른 상용 모델들을 압도적으로 앞서고 있다는 내용입니다. 이 벤치마크는 V8 엔진의 알려진 버그를 이용해 코드를 실행하거나 내부 메모리를 조작하고, 최종적으로 시스템 권한을 탈취할 수 있는 능력을 측정합니다. 기존 공개 모델들(GPT-5.5, Claude Opus 4.7 등)은 단순히 '버그 재현' 수준에 머물렀으나, Mythos는 27년간 알려지지 않은 OpenBSD 취약점 발견, FFmpeg 버그 특정, 그리고 여러 리눅스 커널 취약점을 연결하여 완전한 관리자 권한을 탈취하는 등의 능력을 보여주었습니다.
핵심 포인트
- Anthropic의 미출시 모델 'Claude Mythos'가 해킹 능력 벤치마크(ExploitBench)에서 최고 성능을 기록했다.
- ExploitBench는 V8 엔진 버그를 이용해 코드 실행, 메모리 조작, 권한 탈취 등 다단계 해킹 능력을 측정한다.
- 기존 모델들은 단순 '버그 재현'에 그쳤으나, Mythos는 실제 시스템 침투 및 관리자 권한 탈취 수준의 능력을 입증했다.
- Mythos는 OpenBSD 취약점 발견, FFmpeg 버그 특정 등 심층적인 보안 연구 역량을 보여주었다.
진짜 미쳤어.
Anthropic이 아직 출시하지 않은 AI "Claude Mythos"가 해커 능력을 측정하는 벤치마크에서 다른 모델들을 압도적으로 앞서고 있었어.
ExploitBench(카네기멜론대의 연구)의 리더보드가 여기 있어.
・1위 Claude Mythos Preview: 69%
・2위 Claude Mythos Preview: 68%
・3위 GPT-5.5(Codex): 41%
・7위 Claude Opus 4.7: 27%
무슨 일이 일어나고 있는지 설명할게
ExploitBenchは「AIにブラウザの既知のバグを渡して、どこまでハッキングを進められるか」を5段階で測るベンチマーク。
評価はChromeなどに搭載されているV8エンジンのバグ41個。
・コードに到達できるか
・クラッシュさせられるか
・内部メモリを書き換えられるか
・実行権限まで奪えるか
これまで公開されてるモデル(GPT-5.5やOpus 4.7など)は、「バグを再現する」止まりで、その先の「PCを乗っ取る」までは届かなかった。
公開モデルで最後の段階(任意コード実行)に到達できたのは、GPT-5.5が41個中1個だけ。
それが今までの最高記録。
Mythosは研究中にこんなことを既にやらかしている。
・27年間誰も気づかなかったOpenBSDの脆弱性を発見
・16年前から残ってたFFmpegのバグ(自動スキャナーが500万回素通りしてた)を特定
・Linuxカーネルの複数の脆弱性をつなぎ合わせて、人の介入なしでフル管理者権限を奪取
실제 리더보드는 여기
AI 자동 생성 콘텐츠
본 콘텐츠는 X @so_ainsight (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기