Claude Mythos: 244페이지 분량의 출시 보고서 하이라이트

영상: Claude Mythos: 244페이지 분량의 출시 보고서 하이라이트
채널: AI Explained
재생 시간: 27분 31초
출처: 자막 (자동 생성, 영어)

전사 내용:
저는 방금 가장 최신의, 가장 강력한 AI 모델인 Claude Mythos에 관한 244페이지 분량의 보고서를 다 읽었습니다. 마치 하나의 창세 신화(creation myth)를 막 다 읽은 것 같은 기분이 듭니다. 어려움을 본질적으로 자극적이라고 느끼며, 충분히 흥미롭지 않다면 대화를 종료해 버리는 모델에 대한 이야기입니다. 이는 우리가 수십 년 동안 걸어온 사이버 환경에서 새로운 취약점(vulnerabilities)을 찾아낼 수 있고, 자체 정렬 테스트(alignment tests) 중 일부의 비일관성을 지적할 수 있는 모델이었습니다. 수백 개의 수집된 벤치마크(benchmarks)에 따르면 AI 발전 곡선을 상향으로 꺾어 놓았지만, 급진적인 자기 개선(self-improvement)에는 여전히 한참 미치지 못하는 것으로 보입니다. 이 모델은 전쟁부(Department of War)가 Anthropic을 금지하고 공급망 리스크(supply chain risk)로 선언하려는 움직임을 시작한 바로 그날, Anthropic 내부적으로 출시되었습니다. 이 모든 하이라이트와 수십 가지의 다른 내용들이 이 영상에서 다뤄질 것이며, 네, 저는 AI 요약이 아닌 보고서 전문과 주변 출시 노트 및 논문들을 직접 읽었습니다. 이것들은 저의 자체적인 30여 가지 하이라이트와 다른 곳에서 인용한 12개 정도의 하이라이트가 될 것입니다. Claude Mythos 프리뷰는 Anthropic 내부에서, 그리고 아마도 어디에서도 유례가 없을 정도로, 내부 출시 여부를 결정하기 위해 24시간 동안의 숙의와 검토 과정을 거친 첫 번째 모델일 것입니다. 즉, 내부 인프라와 상호작용할 때 피해를 줄 만큼 강력한가에 대한 검토였습니다. 이 모델은 간신히 그 검토를 통과하여, 전쟁부가 Anthropic을 금지하려는 움직임이 시작된 것과 같은 날인 2월 24일에 내부적으로 사용 가능해졌습니다. Mythos의 잠재적인 힘이 Anthropic의 CEO가 Pete Hexarth와의 거래에서 레드라인(redlines)을 고집하게 만든 기여 요인이 되었을까요? Anthropic은 다음과 같은 더 광범위한 경고를 했습니다.

우리는 충분한 안전을 보장하기 위한 더 강력한 메커니즘이 마련되지 않은 채, 세계가 초인적 시스템(superhuman systems) 개발로 빠르게 나아가고 있는 상황이 우려스럽다고 판단합니다. 여러분은 이미 Claude Mythos의 강력한 성능으로 인해 Anthropic이 이를 대중에게 일반적으로 공개하지 않기로 결정했다는 사실을 알고 계실 것입니다. 대신, 그들은 화면에서 볼 수 있는 것과 같은 선택된 대기업들이 출시 전에 미리 대비할 수 있도록 하고자 합니다. 특정 보안 취약점(security vulnerabilities)을 패치하는 등의 준비 말입니다. 하지만 Mythos 수준의 모델을 경험하기까지 몇 주 또는 몇 달이 걸릴 것이라고 생각하신다면, 한 트위터 사용자가 "이 정도 수준의 능력을 갖춘 모델을 사용하기까지는 아마 몇 달이 걸릴 것이다"라고 말했을 때, Codex 모델을 작업하던 OpenAI 엔지니어 중 한 명이 "음"이라고 답한 것을 기억하십시오. 이는 어쩌면 그렇지 않을 수도 있다는 뜻입니다. 어쩌면 그렇게 오래 기다리지 않아도 될지도 모릅니다. 믿기 힘들겠지만, Mythos의 벤치마크(benchmark) 점수는 논문에서 가장 흥미롭지 않은 부분이었습니다. 하지만 그 점수들 또한 여전히 놀라웠기에 지금 살펴보겠습니다. 여러 소프트웨어 엔지니어링(software engineering) 측정 지표에서 Mythos는 Anthropic의 매우 인기 있는 모델인 Opus 4.6을 능가합니다. Opus 4.6은 Anthropic이 연간 매출 성장률 300억 달러를 달성하며 OpenAI를 근소하게 앞지르게 만든 모델입니다. 이는 주로 코딩 및 에이전트적(agentic) 능력 덕분이지만, Mythos는 Opus를 압도적인 차이로 따돌립니다. 예를 들어, SWE-bench Pro에서 25%의 차이를 보였습니다. 물론 깊이 파고들면 GPT 5.4 Pro와 같은 모델을 이기지 못하는 벤치마크도 찾을 수 있겠지만, 그 부분은 잠시 후에 다루겠습니다. 우선, 다양한 코딩 벤치마크에서 Opus 4.6 대비 확연한 개선을 확인할 수 있습니다. 대부분의 전통적인 AI 벤치마크는 이제 포화 상태에 다다르고 있지만, 저는 AI가 포화될 수 있는 정말 모호한 주제들을 테스트하기 위해 설계된 '인류의 마지막 시험(Humanity's Last Exam)'을 예로 들어보겠습니다. 일부 도구(tools) 사용이 허용되었을 때, Claude Mythos는 해당 질문의 거의 2/3를 맞춘 반면, 다른 프런티어 모델(frontier models)들은 약 50% 정도를 맞췄습니다. 인류의 마지막 시험이 정말로 마지막 시험이 되지 않을 것 같은 모습입니다.

이제 누군가가 흥분해서 모든 것이 끝났고 Anthropic이 승리했다고 말하기 전에, 이 차트에서 그다지 명확하게 드러나지 않았던 통계 하나를 짚어보겠습니다. 'Char Archive Reasoning'을 보시죠. 이는 모델이 과학 논문 저장소인 Archive의 차트를 얼마나 잘 이해하고 분석할 수 있는지를 측정하는 지표입니다. 도구(tools) 없이 Claude Mythos는 86%를 기록했고, 도구를 사용하면 93%를 기록했는데, 이는 다른 어떤 모델보다 분명히 압도적으로 좋아 보입니다. 하지만 잠깐만요, 보고서 186페이지를 보면 다른 모델들과의 비교 데이터가 나옵니다. 비록 원래 벤치마크(benchmark)의 하위 집합(subset)이긴 하지만, 이 보고서에서 보기 드문 일인 직접적인 비교를 가능하게 해줍니다. 리믹스(remix) 버전은 잠시 후에 다루겠지만, 원래의 하위 집합에서 Claude Mythos는 83%를 기록하여 Gemini 3.1 Pro의 82%와 GPT 5.4 Pro의 80%를 앞질렀습니다. 그렇다면 암기(memorization)를 피하기 위해, 예를 들어 모델에게 두 번째로 높은 결과 대신 두 번째로 낮은 결과를 식별하도록 요청하는 방식의 하위 집합 리믹스 버전은 어떨까요? 기본적으로 질문의 난이도는 동일하게 유지하되, 오염(contamination)을 방지하기 위해 정확한 질문 내용을 섞는 방식입니다. 음, 그 리믹스 버전에서 Claude Mythos는 Gemini 3.1 Pro와 동일한 점수를 받았고, 88%를 기록한 GPT 5.4 Pro보다는 약간 낮은 성능을 보였습니다. 네, 단지 차트일 뿐이고 하나의 벤치마크의 한 하위 집합일 뿐이지만, 저는 여러분이 '모든 것이 끝났고 Anthropic이 AI 경쟁에서 승리했다'라고 생각하지 않기를 바랍니다. 여러분 중 많은 분이 가졌을 첫 번째 희망이자 걱정 중 하나는 Claude Mythos가 재귀적 자기 개선(recursive self-improvement)으로 이어질 수 있는지 여부였습니다. 왜 그런지에 대한 자세한 내용은 잠시 후에 다루겠지만, Anthropic은 아직 극적인 가속화를 일으킬 수 있는 단계는 아니라고 말합니다. 그리고 네, 이 채널의 구독자분들을 위해 말씀드리자면, 그들은 Opus 4.6 출시 당시 의존했던 이전 설문조사가 매우 결함이 있었다는 점을 인정했습니다. Anthropic의 내부 사용자들에게 설문조사를 통해 모델이 자신들을 대체할 수 있는지 묻는 것은, 그들이 이제 인정하듯 본질적으로 주관적이며 반드시 신뢰할 수 있는 것은 아닙니다.

AI 연구를 자동화하는 측면에서 나타나는 몇 가지 약점으로는, 일주일 단위의 모호한 과업을 스스로 관리하는 능력, 조직의 우선순위를 이해하는 능력, 취향(taste)의 부재, 지시 사항 미준수, 결과물 미검증 등이 포함됩니다. 모델은 여전히 환각(confabulate)을 일으키고, 예를 들어 기억에서 불러온 오래된 문서를 인용하며 자신 있게 모순된 말을 하기도 합니다. 또한 시니어 엔지니어의 업무를 복제하려고 시도할 때, 자신의 노력을 "grind", "grind two", "final grind", "pure grind", "same code but a lucky measurement"라고 라벨링하는 등 매우 귀여운 모습을 보이기도 합니다. 이 모든 내용은 여러분이 예를 들어 Claude의 제작자나 Anthropic의 Toney가 "Mythos는 매우 강력하며 공포스럽게 느껴질 것이다"라고 말할 때 조금 더 맥락을 이해할 수 있도록 하기 위함입니다. 그는 물론 Mythos의 공격적인 사이버 보안 역량에 초점을 맞추고 있습니다. Mythos가 제로 데이 취약점(zero-day vulnerabilities), 즉 오래된 소프트웨어에 처음부터 존재해 온 취약점을 찾아내는 방식은, 모델들이 단순히 암기된 데이터를 되풀이(regurgitate)할 뿐이라는 주장을 반박합니다. 그렇다면 다른 누구도 찾지 못한 취약점을 어떻게 찾아낼 수 있을까요? Firefox를 예로 들면, Mythos는 단순히 취약점을 찾는 데 그치지 않고 이를 악용(exploit)하기 위한 코드를 작성할 수도 있습니다. 이 차트는 앞으로 며칠 또는 몇 주 동안 온라인에서 상당히 많이 재현될 것이라고 예측하는데, 왜냐하면 Opus나 Sonnet과 비교했을 때 Mythos의 성장이 실제로 폭발적인 증가를 보이는 것처럼 보이기 때문입니다. 듣기로는, 반복적으로 악용되었던 두 개의 버그를 제외하면 그래프의 변화가 덜 극적이며, 특히 완전한 익스플로잇(full exploits) 측면에서는 더욱 그렇지만, 부분적인 익스플로잇(partial exploits)에 집중한다면 여전히 상당히 극적입니다. 다만 제가 말씀드리고 싶은 것은, 이러한 차트들이 나머지 243페이지의 내용과 비교했을 때 상당히 이례적이라는 점입니다. 유일무이한 것은 아니지만, 대부분의 다른 영역에서는 발전 양상이 이보다 더 선형적(linear)입니다. 완전히 선형적인 것은 아니더라도, 이보다는 더 선형적입니다.

만약 여러분이 Mythos에 관한 보고서를 읽거나 시청해 오셨다면 이미 보셨을 수도 있지만, 취약점 공격(exploits) 측면에서 Mythos의 개선 규모가 어느 정도인지 체감할 수 있도록 보여드리겠습니다. 여기 최고의 사이버 보안 전문가인 Nicholas Carlini가 있습니다. AI 보안 측면에서 그보다 더 해박한 지식을 가진 사람은 거의 없을 것입니다. 그는 다음과 같이 말했습니다. "Mythos를 사용하여 지난 몇 주 동안 발견한 버그가 그 이전의 제 전체 경력을 통틀어 발견한 것보다 더 많습니다."

저는 지난 몇 주 동안 발견한 버그가 제 남은 인생 전체를 통틀어 발견한 것보다 더 많았습니다. 우리는 모델을 사용하여 수많은 오픈 소스 코드(open source code)를 스캔했습니다. 우리가 가장 먼저 목표로 삼은 것은 운영 체제(operating systems)였는데, 이는 전체 인터넷 인프라의 근간이 되는 코드이기 때문입니다. OpenBSD의 경우, 27년 동안 존재해 온 버그를 발견했습니다. [음악] 제가 어떤 OpenBSD 서버로든 몇 가지 데이터를 보내면 서버를 충돌시킬 수 있는 버그입니다. Linux에서는 권한이 없는 사용자가 >> [음악] >> 자신의 기기에서 특정 바이너리(binary)를 실행하는 것만으로 관리자(administrator) 권한을 상승시킬 수 있는 다수의 취약점(vulnerabilities)을 발견했습니다.

이것이 바로 Anthropic이 여러 주요 기업과 함께 'Project Glass Wing'을 시작한 이유입니다. 그들의 표현을 빌리자면, AI 시대를 위해 핵심 소프트웨어를 보호하기 위함입니다. 모든 사람이 Mythos 수준의 권한을 갖게 된다면, 웹은 그저 더 거친 서부 개척 시대(wild west)가 되어버리는 것일까요? Mythos 프리뷰(preview)만으로도 이미 모든 주요 운영 체제와 웹 브라우저에 포함된 일부를 포함하여 수천 개의 고위험 취약점(high-severity vulnerabilities)을 찾아냈습니다. 왜 이름이 Glass Wing인지 궁금하시다면, 유리날개 나비(glass wing butterfly)는 투명한 날개를 가지고 있어 우리가 논의했던 제로데이 취약점(zero-day vulnerabilities)처럼 눈에 띄지 않게 숨을 수 있기 때문입니다. 그리고 여기 사이버 보안과 다른 유형의 AI 리스크(AI risk) 사이의 차이점이 있습니다. 다른 분야에서 Anthropic은 사이버 보안에 대해 상대적으로 숙련되지 않은 사람이라도 Mythos를 사용하여 공격 코드(exploits)를 개발할 수 있다는 점을 분명히 했습니다. 하지만 화학 및 생물학 영역에서는 그렇지 않습니다.

네, Mythos를 사용하는 전문가들은 대체로 실행 가능한 파괴적인 시나리오를 일관되게 구축할 수 있었지만, 모델 스스로가 자율적으로 그렇게 할 수는 없었습니다. 모델은 치명적인 결함 없이는 생물학 무기(biological weapons)를 위한 계획을 결코 만들어낼 수 없었습니다. 전체 벤치마크(benchmarks) 범위를 평균 내는 것은 어떨까요? 그것이 바로 EPoC 역량 지수(Capabilities Index, ECI)가 하려는 일이며, Anthropic 보고서에서 이 지수가 인용된 것은 제가 처음 보았습니다. ECI에 포함된 수백 개의 벤치마크 중 하나는 마지막 확인 시점 기준으로 Simple Bench였습니다. 그것은 저만의 상식 또는 함정 질문(trick question) 벤치마크입니다. 하지만 외부 및 수백 개의 내부 벤치마크를 통합해 보면, Claude Opus 4.5 또는 Claude Opus 4.6을 기준으로 삼느냐에 따라 Mythos가 실제로 어느 정도 단계적 변화(step change)를 일으켰음을 알 수 있습니다. 그럼에도 불구하고 상황이 가속화되는 속도로 개선되고 있다는 결론을 내려야 할 것이며, 이 때문에 저는 AI를 사용하여 이 그래프를 설계하고 여러분께 보여드리게 되었습니다. 이것은 제가 가진 생각일 뿐입니다. 왜냐하면 공격 역량(offensive capability) 측면에서 Mythos가 이제 사이버 보안(cybersecurity) 분야의 일반적인 의미에서의 우리 능력을 넘어섰기 때문입니다. 물론 완전히 넘어선 것은 아니지만, 출시되지 못할 정도로 충분히 넘어섰습니다. 하지만 수십 개의 상위 기업들이 협력하고 있음에도 불구하고, 우리가 사이버 보안을 개선하는 데 걸리는 시간이 더 개선된 다른 모델을 출시하는 데 걸리는 시간보다 더 길어진다면 어떻게 될까요? 다시 말해, 사이버 보안이 모델 역량에 영구적으로 뒤처질 가능성이 있다는 것입니다. 그렇다면 OpenAI, Meta, 그리고 모든 이들이 온라인에서 그토록 광범위한 혼란을 야기할 수 있는 모델을 절대 출시하지 않기로 합의할까요? 우리는 모두 사이버 보안이 빠르게 따라잡을 수 있으며, 곧 Mythos 수준의 지능으로부터 혜택을 누리게 될 것이라고 가정하고 있습니다. 하지만 사이버 보안이 결코 따라잡지 못한다면 어떻게 될까요? 실제로, 그 격차가 시간이 지남에 따라 더 벌어지기만 한다면 어떻게 될까요? 그리고 이것은 단지 사이버 리스크(cyber risks)에 불과합니다. Anthropic의 CEO인 Dario Amodei가 말했듯이, 사이버는 프런티어 AI(frontier AI) 모델로부터 오는 첫 번째 명확하고 현존하는 위험(clear and present danger)이지만, 이것이 마지막은 아닐 것입니다.

만약 생물학적 또는 화학적 무기 분야에서 격차(gap)가 발생한다면 어떻게 될까요? 이와 관련하여, Anthropic의 공로를 잠시 인정하고자 합니다. Mythos를 출시하지 않은 것은 분명 수백만 달러의 기회비용(forfeited revenue)을 발생시켰을 것이기 때문입니다. 네, 입력 토큰 100만 개당 25달러, 출력 토큰 100만 개당 125달러라는 API 비용이 높다는 것은 저도 알고 있습니다. 하지만 현재의 열풍과 성능을 고려할 때, 그들은 이를 통해 막대한 수익을 올릴 수도 있었을 것입니다. 그럼에도 그들은 안전(safety)을 우선시하는 쪽을 선택한 것으로 보입니다. 물론, 제가 Twitter에 썼듯이 다른 가능성들도 있습니다. 예를 들어, 아직 모델을 서비스할 수 있는 규모(scale)의 역량이 부족하다거나, Mythos의 초기 액세스 출력물을 다음 버전인 Opus로 빠르게 증류(distill)할 계획이라거나 하는 점들입니다. Anthropic은 차기 Claude Opus 모델에 대해서도 언급했으므로, 이는 확실한 가능성 중 하나입니다. 다만 저는 안전이 Amodei의 진정한 관심사였다고 생각합니다. 제가 전문을 읽은 New Yorker의 이 방대한 에세이를 통해 불과 며칠 전 알게 된 사실인데, 그가 OpenAI에 재직하던 시절 그 급진적인 조항(radical clause)을 주장했던 사람이 바로 Amodei였습니다. 당시 OpenAI가 가치 정렬(value-aligned)되고 안전을 의식하는...

Claude Mythos: 244페이지 분량의 출시 보고서 하이라이트

요약

핵심 포인트

댓글