OpenAI의 GPT-5.5-Cyber, 보안 벤치마크에서 Anthropic의 Mythos를 능가

요약

OpenAI의 GPT-5.5-Cyber가 보안 벤치마크에서 Anthropic의 Mythos를 능가하며 강력한 성능을 입증했습니다. Codex Security 플러그인은 3,000만 개의 커밋을 스캔하여 취약점을 자동으로 탐지하고 패치하는 기능을 제공합니다.

핵심 포인트

GPT-5.5-Cyber가 CyberGym 등 주요 보안 벤치마크에서 Mythos를 능가함
Codex Security 플러그인이 3,000만 개 이상의 커밋을 스캔하여 자동 패치 수행
50만 개 이상의 취약점 발견 사항을 자동으로 수정 및 플래그 처리
공격 경로 분석 및 취약점 관리 시스템 연동 기능 강화

OpenAI의 GPT-5.5-Cyber가 보안 벤치마크에서 Anthropic의 Mythos를 능가했습니다. 업데이트된 Codex 플러그인은 3,000만 개의 커밋 (commits)을 스캔한 후 자동으로 패치 (auto-patches)를 수행합니다.

OpenAI의 GPT-5.5-Cyber는 CyberGym, ExploitGym, 그리고 SEC-bench Pro에서 Anthropic의 Mythos를 능가했습니다. 업데이트된 모델과 Codex Security 플러그인은 이제 3,000만 개의 커밋 (commits)을 스캔한 후 취약점 (vulnerabilities)을 자동으로 패치 (auto-patch)합니다.

주요 사실 (Key facts)

GPT-5.5-Cyber는 CyberGym, ExploitGym, SEC-bench Pro에서 Anthropic의 Mythos를 능가합니다.
Codex Security 플러그인은 3만 개 이상의 코드베이스 (codebases)에 걸쳐 3,000만 개 이상의 커밋 (commits)을 스캔했습니다.
50만 개 이상의 발견 사항 (findings)이 수정된 것으로 자동 플래그 (auto-flagged)되었으며, 7만 개는 수동으로 확인되었습니다.
OpenAI는 25개 이상의 보안 기업 및 여러 정부와 파트너십을 맺고 있습니다.
Patch the Planet 이니셔티브는 오픈 소스 소프트웨어 (open-source software) 버그를 대상으로 합니다.

OpenAI는 업데이트된 Codex Security 플러그인, 전체 GPT-5.5-Cyber 모델, 그리고 25개 이상의 보안 기업 및 여러 정부로 구성된 파트너 네트워크와 함께 Daybreak 사이버 보안 (cybersecurity) 이니셔티브를 확장하고 있습니다. 초점은 취약점 (vulnerabilities)을 찾는 것에서 이를 자동으로 패치 (patching)하는 것으로 전환됩니다. The Decoder에 따르면

핵심 요약 (Key Takeaways)

OpenAI의 GPT-5.5-Cyber는 보안 벤치마크 (security benchmarks)에서 Anthropic의 Mythos를 능가합니다.
업데이트된 Codex 플러그인은 3,000만 개의 커밋 (commits)을 스캔한 후 자동으로 패치 (auto-patches)합니다.

발견에서 패치까지의 루프를 완성하는 Codex Security 업데이트

Codex Security 플러그인은 지난 3월 연구 프리뷰 (research preview)로 출시되었습니다. OpenAI에 따르면, 그 이후로 30,000개 이상의 코드베이스 (codebases) 전반에 걸쳐 3,000만 개 이상의 커밋 (commits)을 스캔했습니다. 500,000개 이상의 발견 사항이 자동으로 수정된 것으로 표시되었으며, 검토자들이 70,000건을 수동으로 확인했습니다. 업데이트된 플러그인은 위협 모델 (threat model)과 함께 코드를 분석하고, 결함을 찾아내며, 영향을 받는 코드가 도달 가능한지 (reachable) 확인하고, 타겟팅된 패치 (patch)를 생성하며, 그 결과를 검증합니다. 새로운 기능에는 전체 코드베이스에 대한 심층 스캔 (deep scans), 공격 경로 분석 (attack path analysis), 그리고 SARIF 파일 또는 CodeQL 쿼리를 통한 취약점 관리 시스템 (vulnerability management systems)으로의 내보내기가 포함됩니다. 모든 변경 사항에 대해서는 여전히 사람이 최종 승인합니다. OpenAI blog

GPT-5.5-Cyber는 검증된 방어자에게 집중합니다

GPT-5.5 matches Claude Mythos in cyber attack tests, UK AI Security ...

GPT-5.5-Cyber의 전체 버전은 보안 워크플로 (workflows)에서 불필요한 거부를 줄이는 데 주로 목적을 두었던 이전 프리뷰를 대체합니다. OpenAI는 업데이트된 이 모델을 소프트웨어 결함을 찾고 패치하는 데 있어 가장 유능한 단일 모델이라고 부릅니다. OpenAI에 따르면 GPT-5.5-Cyber는 모든 주요 사이버 보안 벤치마크 (cybersecurity benchmarks)에서 선두를 달리고 있습니다. CyberGym은 에이전트 (agent)가 소프트웨어 환경에서 알려진 결함을 재현할 수 있는지 측정합니다. ExploitGym은 에이전트가 취약점 (vulnerabilities)을 작동하는 익스플로잇 (exploits)으로 전환할 수 있는지 테스트합니다. SEC-bench Pro는 장기적인 취약점 발견 능력을 평가합니다. OpenAI는 이 모델이 표준 모델보다 의도적으로 더 허용적이며, 요청을 더 적게 거부한다고 밝혔습니다. Wired AI reports

모델 출시와 함께 발표된 "Patch the Planet" 이니셔티브는 오픈 소스 소프트웨어의 버그를 대상으로 합니다. OpenAI는 AI와 전문가 검토를 활용하여 취약점을 찾고, 검증하며, 수정하기 위해 유지 관리자(maintainers)들과 협력할 예정입니다. 파트너 프로그램에는 25개 이상의 보안 기업과 여러 정부가 포함되어 있으나, OpenAI는 어떤 정부인지는 공개하지 않았습니다. Engadget

Anthropic은 최근 병목 현상이 결함을 찾는 것에서 이를 패치(patching)하는 것으로 이동하고 있다는 유사한 점을 언급했습니다. OpenAI도 이에 동의하며, 업데이트된 Codex 플러그인은 그 격차를 줄이는 것을 목표로 합니다. 벤치마크에서 Anthropic의 Mythos와 비교된 점은 Anthropic 자체의 사이버 보안 노력(Claude Code 포함)을 고려할 때 주목할 만합니다. 6월 17일에 발표된 Anthropic의 연구에 따르면, 시니어 엔지니어들은 Claude Code를 사용할 때 주니어보다 31% 더 높은 성공률을 보였습니다. [per Anthropic study]

주목해야 할 사항

GPT-5.5-Cyber의 벤치마크 주장에 대한 제3자 검증을 지켜보십시오. 독립적인 연구자들은 종종 60일 이내에 이러한 결과를 재현합니다. 또한, AI 사이버 보안 도구를 둘러싼 지정학적 긴장이 심화됨에 따라 파트너 프로그램이 25개 기업 이상으로 확장되는지, 그리고 어떤 정부가 참여하는지도 추적해야 합니다.

출처: the-decoder.com

원문 게시: gentic.news

AI 자동 생성 콘텐츠

원문 바로가기