Daybreak: 전 세계 모든 조직을 보호하기 위한 도구

우리는 취약한 소프트웨어의 패치(patching)를 머신 스피드(machine speed)로 민주화하기 위해 __Daybreak__를 확장하고 있습니다. 예를 들어, 우리는 주요 브라우저, 네트워크 인프라, 그리고 FreeBSD 및 Linux 커널과 같은 운영체제(operating systems)의 __중대한 취약점(critical vulnerabilities)__을 발견하고 패치를 생성하는 데 모델을 적용했습니다. 이러한 역량의 영향력을 확대하기 위해 다음과 같은 조치를 취합니다:

Codex Security: 우리는 __Codex Security 플러그인__의 업데이트를 출시합니다. 이 플러그인은 모델의 내부 및 고객 사용 사례에서 얻은 학습 내용을 바탕으로, 기존 시스템의 취약점을 발견하고 패치하는 프로세스를 가속화할 뿐만 아니라 새로운 취약점이 프로덕션(production) 환경에 도달하는 것을 자동으로 방지하는 솔루션을 구현합니다.

GPT‑5.5‑Cyber: 초기 허용 전용(permissive-only) 프리뷰에 이어, 신뢰할 수 있는 방어자(defenders)들을 대상으로 한 지속적인 제한적 출시를 통해 GPT‑5.5‑Cyber의 전체 버전을 출시합니다. 이 모델은 CyberGym에서 GPT‑5.5의 81.8%와 비교되는 85.6%를 기록하며 새로운 최첨단(state-of-the-art) 성능을 설정했습니다.

보안 파트너들이 제품과 서비스 내에서 신뢰할 수 있는 액세스를 통해 우리의 가장 강력한 모델을 활용함으로써 더 많은 조직에 혜택을 확장할 수 있도록 지원합니다.
Daybreak Cyber Partner Program: 널리 사용되는 오픈 소스 프로젝트들이 발견(findings) 단계에서 수정(fixes) 단계로 넘어갈 수 있도록 Trail of Bits, HackerOne, Calif, 연구자 및 메인테이너(maintainers)와 협력하여 설립된 이니셔티브입니다.
Patch the Planet: 30개 이상의 오픈 소스 프로젝트가 참여를 약속했으며, 초기 참여자로는 cURL, Go, Python, Sigstore, pyca/cryptography 등이 포함됩니다.
Patch the Planet을 통해 우리는 연구자, 메인테이너, 기업 및 파트너와 협력하여 강력한 사이버 역량을 적절한 액세스, 거버넌스(governance) 및 인간의 감독(human oversight) 하에 방어자들에게 제공하고자 노력하고 있습니다. Clint와 Dan의 자세한 이야기는 여기(opens in a new window)에서 확인하실 수 있습니다.

AI는 사이버 보안의 물리 법칙을 변화시켰습니다. 최첨단 (Frontier) AI 모델들은 취약점 발견 (vulnerability discovery) 속도를 점점 더 가속화하고 있습니다. 역사적으로 병목 현상은 취약점을 찾는 것이었으나, 이제 방어자들은 발견된 취약점의 수에 압도당하고 있습니다. 대신, 이제 병목 현상은 취약점을 패치 (patching) 하는 것입니다.

수년 동안 심각한 취약점을 찾는 데에는 희귀한 전문 지식, 시간, 그리고 복잡한 시스템에 대한 깊은 이해가 필요했습니다. 이제 모델은 대규모 코드베이스 (codebases)를 탐색하고, 공격 경로 (attack paths)를 추론하며, 가설을 검증하고, 그렇지 않으면 숨겨져 있었을 보안 문제를 드러낼 수 있습니다. 방어자들에게는 이러한 역량에 대한 접근이 절대적으로 필요하며, 공격자가 하기 전에 우리가 이제 찾아낼 수 있는 것들을 수정할 수 있는 도구 또한 필요합니다.

취약점 보고서 그 자체만으로는 누구도 보호할 수 없습니다. 가치는 문제를 검증하고, 그 영향을 이해하며, 패치를 개발 및 테스트하고, 공개를 조율하며, 팀이 수정 사항을 배포하도록 돕는 과정에서 나옵니다. 우리는 방어자들을 가속화하고 모델의 역량을 실질적인 리스크 감소로 전환하기 위해, 이러한 후속 단계들을 개선하고자 파트너들과 함께 투자하고 있습니다.

최첨단 방어 역량이 소수에게 집중되어서는 안 됩니다. 소프트웨어는 핵심 인프라에서부터 비즈니스 애플리케이션, 정부 네트워크에 이르기까지 삶의 모든 측면에 닿아 있습니다. AI가 취약점 발견의 속도를 변화시킴에 따라, 전 세계의 방어자들은 공격자가 이러한 결함을 식별하고 악용하기 전에 자신의 인프라를 찾고, 수정하고, 보호할 수 있도록 이러한 모델에 대한 민주화된 접근 권한을 가져야 합니다.

Daybreak는 OpenAI의 모델, Trusted Access for Cyber, Codex Security 워크플로우 (workflows), 그리고 생태계 파트너들의 최첨단 사이버 역량을 결합하여, 승인된 방어자들이 기존 보안 및 개발 워크플로우 내에서 취약점을 검증하고, 리스크의 우선순위를 정하며, 수정 사항을 생성 및 테스트하고, 증거를 생성할 수 있도록 지원합니다. 우리의 목표는 사이버 위협 환경이 계속해서 가속화되는 상황에서도 조직이 보안을 유지하는 데 필요한 도구를 제공하는 것입니다.

3월에 Codex Security 클라우드를 리서치 프리뷰 (research preview)로 출시한 이후, 30,000개 이상의 코드베이스(codebases)에 걸쳐 3,000만 개 이상의 커밋(commits)을 스캔했습니다. 휴먼 리뷰어(human reviewers)들이 70,000개 이상의 탐지 결과(findings)를 수정된 것으로 수동으로 표시했으며, 500,000개 이상의 탐지 결과는 자동으로 수정된 것으로 판정되었습니다.

이것이 바로 현재 패치(patching)가 이루어져야 하는 규모입니다.

Three large white stats on a peach-to-yellow gradient background: “30K Repos scanned,” “30M+ Commits scanned,” and “500K+ Fixed findings.”

우리는 Codex에 직접 통합함으로써 모든 소프트웨어 개발자 옆에 보안 엔지니어(security engineer)에 상응하는 존재를 배치한다는 단순한 전제를 바탕으로 Codex Security를 구축했습니다. Codex Security는 단순히 경고(alerts)를 생성하는 것에 그치지 않고, 팀의 코드와 위협 모델(threat model)(또는 존재하지 않는 경우 모델 생성)을 이해하며, 그럴듯한 취약점(vulnerabilities)을 식별하고, 영향을 받는 코드의 도달 가능성(reachability)을 판단하며, 검증 단계(validation steps)를 제공하기 위한 증거를 수집하고, 타겟팅된 패치(patch)를 개발하며, 그 결과를 검증합니다. 어떤 탐지 결과를 조사할지, 어떤 변경 사항을 적용할지, 어떤 정보를 공유할지는 여전히 사람이 통제합니다.

오늘 우리는 즉시 사용 가능한 방어적 보안 워크플로(defensive security workflows)를 가능하게 하는 Codex Security 플러그인(plugin) 업데이트를 출시합니다. 개발자는 심층 스캔(deep scans)을 실행하거나 최근 변경 사항을 검토할 수 있으며, 심각도(severity), 영향을 받는 코드 위치, 검증 증거(validation evidence), 그리고 해결 가이드(remediation guidance)가 포함된 보고서를 생성하고, 공격 경로(attack paths)를 추적하며, 위협 모델을 구축하고, 탐지 결과를 검증하며, 검토를 위한 코드베이스 특화 패치(codebase-specific patches)를 생성할 수 있습니다.

Screenshot of the Codex desktop app on a peach-to-orange gradient background. The main chat shows Codex preparing to run a Codex Security scan, with a “Set up security scan” panel open for a codebase scan of the juice-shop repository, scan area set to entire codebase, current branch master, and a green “Start scan” button. A right sidebar lists environment details including changes, local, master branch, and commit or push.

전체 코드베이스, 코드베이스의 일부, 또는 특정 변경 사항이나 커밋을 대상으로 하는 스캔을 설정하세요.

__plugin__은 스캐너, 어드바이저리 (advisories), 버그 바운티 (bug-bounty) 보고서 또는 티켓팅 시스템 (ticketing systems)에서 발견된 기존 결과들을 분류(triage)하고 검증할 수도 있으며, 이후 대규모로 패치 생성을 자동화하여 밀려 있는 취약점 백로그 (backlog)를 빠르게 해결할 수 있습니다. Codex Security가 스캔을 완료하면, 기존의 취약점 관리 시스템 (vulnerability management system)으로 내보내거나 SARIF 파일, CodeQL 쿼리 등을 통해 도구와 통합할 수도 있습니다. 이 플러그인은 이러한 기능들을 훨씬 더 쉽게 사용할 수 있게 하여, Codex CLI를 통한 자동화된 파이프라인 (pipelines)을 지원하거나 Codex 앱 내의 개발자 워크플로 (workflows)에 통합할 수 있도록 합니다.

우리는 더욱 허용적(permissive)이면서도 고급화된, 승인된 사이버 보안 작업을 위해 더 뛰어난 능력을 갖춘 모델인 GPT‑5.5‑Cyber의 업데이트 버전을 출시합니다.

GPT‑5.5‑Cyber의 초기 프리뷰는 주로 전문화된 워크플로에서 불필요한 거부 (refusals)를 줄이기 위해 설계되었습니다. 이번 업데이트는 여기서 더 나아갑니다. 이 모델은 GPT-5.5의 범용 지능과 길고 복잡한 작업을 수행하는 능력을 유지하면서도, 소프트웨어 취약점을 찾고 패치를 돕는 데 있어 역대 가장 강력한 모델입니다.

이 모델은 대규모 코드베이스에 대해 더 깊은 분석을 지속할 수 있습니다. 즉, 보안 관련 구성 요소를 식별하고, 취약한 코드가 도달 가능한지(reachable) 추적하며, 제어된 환경에서 발생 가능한 문제를 검증하고, 패치를 개발 및 테스트하며, 인간의 검토를 위한 증거를 준비할 수 있습니다. 목표는 단순히 더 많은 발견 사항을 만들어내는 것이 아니라, 방어자가 전체 복구 루프 (remediation loop)를 통과할 수 있도록 돕는 것입니다.

에이전트가 소프트웨어 환경에서 알려진 취약점을 재현할 수 있는지 측정하는 CyberGym에서, 업데이트된 GPT‑5.5‑Cyber는 단일 모델 평가에서 85.6%를 기록했으며, 이는 GPT-5.5의 81.8%와 비교됩니다. 이는 우리가 단일 모델에서 측정한 CyberGym 점수 중 가장 높은 수치입니다.

GPT‑5.5‑Cyber는 또한 두 가지 까다로운 실세계 보안 벤치마크 (benchmarks)에서도 GPT‑5.5를 능가했습니다. ExploitGym에서는 39.5%를 기록하며 GPT‑5.5의 25.95%를 앞질렀는데, ExploitGym은 에이전트가 알려진 취약점 (vulnerabilities)을 권한 없는 코드 실행을 달성하는 작동 가능한 익스플로잇 (exploits)으로 전환할 수 있는지 테스트합니다. 복잡한 소프트웨어 타겟 전반에 걸쳐 장기적인 취약점 발견 및 개념 증명 (proof-of-concept) 생성을 평가하는 SEC-bench Pro에서 GPT‑5.5‑Cyber는 69.8%를 달성했으며, 이는 GPT‑5.5의 63.1%와 비교됩니다.

벤치마크는 이야기의 일부분일 뿐입니다. 실무에서 중요한 것은 모델이 실제 취약점을 찾을 수 있는지, 실행 가능한 이슈를 노이즈 (noise)로부터 구별할 수 있는지, 그리고 방어자가 안전하게 수정 사항을 적용할 수 있도록 도울 수 있는지 여부입니다. 우리는 조정된 공개 (coordinated disclosures)가 마무리됨에 따라 복잡한 저장소 (repositories) 및 실제 복구 워크플로 (remediation workflows)에서의 모델 성능 평가를 계속하고 있습니다.

우리는 오늘 발표한 내용과 향후 모델 출시 준비를 포함하여, 우리의 사이버 접근 방식에 대해 미국 정부와 지속적인 대화를 나누어 왔습니다. 여기에는 GPT‑5.5 및 5.5-Cyber의 배포 전 테스트 (pre-deployment testing)를 위한 AI 표준 및 혁신 센터 (CAISI)와의 지속적인 협력, 그리고 최근의 행정 명령 (Executive Order) (새 창에서 열기) 및 관련 산업 표준의 이행을 위한 국가 사이버 국장실 (ONCD) 및 과학기술정책국 (OSTP)과의 협력이 포함됩니다.

대부분의 방어자에게는 사이버를 위한 신뢰할 수 있는 액세스 (Trusted Access for Cyber) 및 Codex Security가 적용된 GPT‑5.5가 적절한 시작점입니다. GPT‑5.5‑Cyber는 승인된 업무 수행을 위해 우리의 가장 진보된 사이버 역량과 더 허용적인 동작이 필요하며, 더 강력한 검증, 모니터링, 범위 제한 제어 (scoped controls) 및 검토가 결합된 검증된 방어자를 대상으로 설계되었습니다. 초기 Daybreak 작업 전반에 걸쳐, GPT‑5.5와 Codex Security는 Firefox, V8, Safari, OpenBSD, FreeBSD, 그리고 HTTP/2 구현을 포함하여 널리 사용되는 시스템의 취약점을 식별하고 검증하는 데 방어자들을 지원해 왔습니다.

이러한 확장 계획의 일환으로, 우리는 선도적인 보안 소프트웨어 및 서비스 제공업체들과 함께 __OpenAI Daybreak 사이버 파트너 프로그램 (OpenAI Daybreak Cyber Partner Program)__을 출시합니다. 이 프로그램을 통해 참여 파트너들은 대부분의 방어적 사이버 보안 워크플로우 (cybersecurity workflows)를 위한 주요 모델인 '사이버용 신뢰할 수 있는 액세스 (Trusted Access for Cyber)'가 적용된 GPT-5.5를 고객에게 제공하는 보안 제품 및 서비스에 사용할 수 있습니다. 이를 통해 고객은 모델의 방어 역량으로부터 혜택을 얻고 소프트웨어를 더욱 탄력적으로(resilient) 만들 수 있지만, 모델에 대한 직접적인 액세스 권한은 참여 파트너가 유지하게 됩니다.

또한 우리는 프로그램 파트너들과 협력하여, 보안 생태계 전반에 걸쳐 이러한 역량을 책임감 있게 배포하는 데 필요한 보호 조치, 모니터링 및 남용 방지 표준을 지속적으로 강화할 것입니다. 우리는 초기 파트너 (partners) 그룹과 함께 이를 시작하며, 향후 몇 달 동안 더 많은 조직으로 계속 확장할 계획입니다.

Patch the Planet은 유지 관리자(maintainers)들이 취약점 발견에서 수정(fixes) 단계로 넘어갈 수 있도록 돕기 위해 구축된 이니셔티브입니다. Trail of Bits와 함께 설립되었으며, HackerOne 및 Calif와의 협력을 통해, 우리는 전문 보안 연구원들에게 자금을 지원하고 Codex Security 및 우리의 고급 모델을 제공하여 오픈 소스 유지 관리자들과 직접 협력할 수 있도록 지원하고 있습니다.

오픈 소스 소프트웨어는 다양한 분야의 제품, 공공 서비스, 개발자 도구 및 핵심 인프라를 구동합니다. 널리 사용되는 네트워킹 라이브러리의 취약점은 수천 개의 다운스트림(downstream) 시스템에 영향을 미칠 수 있습니다. 그러나 이러한 프로젝트 중 상당수는 제한된 시간과 자금을 가진 매우 작은 팀에 의해 유지됩니다. Linux Foundation과 Harvard의 연구(새 창에서 열기)에 따르면, 연구 대상이 된 널리 사용되는 프로젝트의 94%가 1년 동안 추가된 코드의 90% 이상을 책임지는 개발자가 10명 미만인 것으로 나타났습니다.

AI가 더 많은 취약점을 더 빠르게 찾아내고 패치하는 것을 가능하게 함에 따라, 수천 개의 보고서를 검토해야 하는 유지 관리자(maintainers)의 업무량 또한 증가하고 있습니다. 이 보고서들 중 상당수는 품질이 낮은 오탐(false positives)입니다. 유지 관리자들에게 해결할 수 있는 추가적인 역량은 제공하지 않으면서 더 많은 보고서만 남겨두어서는 안 됩니다. 이것이 바로 Patch the Planet이 전문가의 보안 검토(human security review)를 중심으로 구축된 이유입니다.

Daybreak: 전 세계 모든 조직을 보호하기 위한 도구

요약

핵심 포인트

댓글