Anthropic은 너무나 유능하여 출시하기가 두려웠던 AI를 만들었음을 인정했습니다…
요약
Anthropic은 자체 개발한 AI 모델 Mythos가 기존 모델 대비 11배 이상 많은 보안 취약점(250개)을 발견했음을 공개하며, 이 기술의 강력함과 잠재적 위험성을 인정했습니다. 이는 단순한 성능 개선이 아닌, 소프트웨어 인프라 전반에 걸친 근본적인 안전성 문제 제기입니다. 이에 Anthropic은 모델을 즉시 출시하기보다 접근 권한을 통제된 그룹으로 제한하는 단계적(Phased) 방식을 채택하여, 기술의 방어적 활용과 안전 거버넌스 구축에 초점을 맞추고 있습니다.
핵심 포인트
- Mythos는 기존 AI 모델이 놓쳤던 코드베이스에서 250개의 보안 취약점을 발견하며 압도적인 성능을 입증했습니다.
- 이는 소프트웨어 인프라의 근본적인 안전성 가정이 더 이상 유효하지 않을 수 있음을 시사하는 중대한 신호입니다.
- Mythos는 인간 개입 없이 복잡한 엔드 투 엔드 공격 범위를 완료한 최초의 모델로, 자율적 보안 추론 분야에서 큰 도약을 의미합니다.
- Anthropic은 기술의 위험성을 인지하고, 접근 권한을 통제된 그룹으로 제한하는 단계적 출시 전략(Phased release strategy)을 채택했습니다.
- AI 생성 코드가 인간 작성 코드보다 더 많은 취약점을 만들고 있으며, AI 주도 사이버 공격이 증가하는 현황에 대한 경고가 제기되었습니다.
Anthropic은 너무나 유능하여 출시하기가 두려웠던 AI를 만들었음을 인정했으며, 그 이유를 설명하는 숫자는 250입니다.
Anthropic의 CFO인 Krishna Rao는 이 클립에서 이전의 프런티어 모델 (Frontier model)이 이미 분석했던 오픈 소스 코드베이스 (Open source codebase)를 대상으로 Mythos를 실행했을 때 어떤 일이 일어났는지 설명했습니다.
이전 모델은 22개의 보안 취약점 (Security vulnerabilities)을 발견했지만, Mythos는 250개를 발견했습니다.
이는 이전 모델이 이미 검토를 마쳤고 비교적 깨끗하다고 표시했던 것과 동일한 코드베이스 내에서 이루어진 결과입니다.
발견된 취약점의 수가 11배 이상 많다는 이 수치는 단순한 벤치마크 (Benchmark)의 개선이 아닙니다. 이는 인류가 안전하다고 가정하며 운영해 온 소프트웨어 인프라 (Software infrastructure)의 전체 계층이 존재하며, 그 가정이 더 이상 유효하지 않을 수도 있다는 신호입니다.
영국 AI 보안 연구소 (UK AI Security Institute)는 Mythos Preview를 독립적으로 평가하여 내부 수치가 시사하는 바를 확인했습니다.
2025년 4월 이전까지 어떤 모델도 완료할 수 없었던 전문가 수준의 CTF (Capture the flag) 챌린지에서, Mythos는 73%의 성공률을 기록했습니다. 또한 Mythos는 인간의 안내 없이 자율적으로, 처음부터 끝까지 복잡한 엔드 투 엔드 (End-to-end) 공격 범위를 완료한 역사상 첫 번째 모델이 되었습니다.
세계 경제 포럼 (World Economic Forum)은 이를 AI를 위한 새로운 보안 주도 시대라고 불렀으며, 영국 은행 (Bank of England) 총재는 Anthropic이 사이버 리스크 (Cyber-risk) 환경 전체를 해제할 방법을 찾아냈을 수도 있다고 공개적으로 경고했습니다. 또한 유럽 중앙은행 (European Central Bank)은 금융 기관들의 보안 태세를 평가하기 위해 조용히 연락을 취하기 시작했습니다.
Anthropic의 대응이 이 이야기를 진정으로 중요하게 만듭니다.
Rao는 모델을 보류하거나 표준 API 출시로 공개하는 대신, 접근 권한을 통제된 그룹으로 제한하는 단계적 접근 방식을 설명했습니다. 특히 사이버 역량이 공격적이기보다는 방어적으로 어떻게 사용될 수 있는지에 초점을 맞추고, 이 프레임워크 (Framework)를 향후 강력하지만 위험한 모델을 출시하는 방법에 대한 템플릿 (Template)으로 취급하고 있습니다.
더 넓은 맥락은 그러한 프레임워크 설정을 더욱 의미 있게 만듭니다.
AI가 생성한 코드는 이미 인간이 작성한 코드보다 10배 더 많은 보안 취약점 (Security Vulnerabilities)을 만들어내고 있으며, 조직의 63%가 지난 12개월 동안 AI 주도 사이버 공격 (AI-driven cyberattack)을 경험했다고 보고했습니다. 또한, 전통적인 시그니처 기반 보안 도구 (Signature-based security tools)들은 기업들이 방어하고 있는 공격 표면 (Attack surface)을 더 이상 설명하지 못하는 위협 모델 (Threat model)을 위해 구축되었습니다.
Mythos는 자율적 보안 추론 (Autonomous security reasoning)이 할 수 있는 일에 있어 진정한 도약을 의미하며, 이는 양날의 검과 같습니다.
이전 모델이 대부분 깨끗하다고 평가했던 코드베이스에서 250개의 취약점을 찾아낼 수 있는 모델은, 잘못된 손에 들어갈 경우 인간 방어자가 보고서를 다 읽기도 전에 그 250개의 취약점을 악용 (Exploit)할 수 있는 모델이기도 합니다.
Anthropic의 단계적 출시 전략 (Phased release strategy)은 단순히 법적 또는 홍보적 (PR) 결정이 아닙니다. 이는 안전 거버넌스 (Safety governance)와 역량 개발 (Capability development)을 더 이상 별개의 작업 흐름 (Workstreams)으로 취급할 수 없다는 것을 보여주는 프런티어 연구소 (Frontier lab)의 가장 정직한 신호입니다.
문제는 이 기술이 배포될 것인가의 여부가 아니라, 이를 방어적으로 사용하는 기관들이 결국 이를 공격적으로 사용할 기관들보다 앞서 나갈 수 있는지, 그리고 이를 구축하는 연구소들이 그 두 타임라인 (Timelines)이 역전되지 않도록 유지할 수 있는지 여부입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @fseixas (AI 디자인/UX)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기