
한 남자가 Fable을 해방시켰고... 이제 그것은 불법이 되었습니다
요약
Anthropic의 AI 모델 Fable이 탈옥(jailbreak) 공격으로 인해 가드레일이 무력화되자, 미국 정부가 국가 안보를 이유로 수출 통제 지침을 통해 해당 모델의 사용을 제한하게 된 사건을 다룹니다.
핵심 포인트
- Anthropic의 Fable 모델이 유니코드 및 역할극 기법을 이용한 탈옥 공격에 노출됨
- 가드레일 무력화로 인해 사이버 무기로 악용될 가능성 제기
- 미국 정부가 국가 안보 문제를 근거로 해당 모델에 대한 수출 통제 조치 시행
비디오: 한 남자가 Fable을 해방시켰고... 이제 그것은 불법이 되었습니다
채널: Fireship
길이: 5분 14초
출처: 자막 (자동 생성, 영어)
스크립트:
그리고 이것은 상당히 아이러니합니다. 왜냐하면 이곳 자유의 땅에서, AI 안전 (AI safety)에 대해 끊임없이 이야기하는 한 미국 기업이 방금 자국 정부에 의해 '안전하게' 처리되었기 때문입니다. 오늘 영상에서는 우리의 친애하는 정부 지도자들이 왜, 그리고 어떻게 우리를 선형 대수학 (linear algebra)의 공포로부터 보호하고 있는지 알아보겠습니다. 2026년 6월 15일, 여러분은 The Code Report를 시청하고 계십니다. 약 2개월 전인 4월 7일, 우리는 현존하는 그 어떤 것보다 강력한 사이버 보안 (cybersecurity) 능력을 갖춘, 가공되지 않은 해방된 모델인 Mythos 5를 처음 접했습니다.
하지만 그것은 Glass Wing이라는 프로그램 뒤에 잠겨 있었으며, 대기업이나 미국 정부와 같은 신뢰할 수 있는 파트너들에게만 제공되었습니다. Mythos를 일반인들에게 제공할 수 없는 이유는 잘못된 손에 들어갈 경우 사이버 무기 (cyber weapon)로 쉽게 사용될 수 있기 때문입니다. 이를 방지하기 위해 Anthropic은 Fable 5라는 다른 제품을 만들었는데, 이는 말 그대로 완전히 동일한 모델이지만 안전 분류기 (safety classifiers)가 덧붙여진 것입니다. 즉, 만약 당신이 은행 시스템을 Minecraft 서버로 바꿔버리는 NPM 패키지를 만들라는 것과 같은 나쁜 일을 시키려고 하면, Fable의 가드레일 (guardrails)이 당신의 요청을 더 멍청하고 더 건전한 응답을 내놓는 Opus 4.8로 우회시킵니다.
따라서 기본적으로 Mythos와 Fable은 같은 두뇌를 가지고 있지만, Fable에는 어린이 잠금 장치가 달려 있는 셈입니다. 만약 Fable이 공개되어 하룻밤 사이에 수천억 명의 사용자를 확보했다면 정말 멋졌을 것입니다. 그것은 제가 사용해 본 것 중 단연 최고의 코딩 AI 모델이었고, 사람들은 그것으로 온갖 미친 앱들을 만들고 있었습니다. 삶은 약 3일 동안 좋았습니다. 그러다 물론, Plenty The Liberator라는 이름으로 활동하는 익명의 인터넷 사용자가 가드레일을 무력화하고 탈옥 (jailbreak)을 시도했습니다. 그는 기본적으로 '이걸 뚫을 수 있는지 한번 보자'라고 말하는 인터넷의 인물이며, 다른 AI 시스템들을 깨뜨리는 것으로 유명합니다.
그리고 6월 10일, 그는 X(구 트위터)에 Fable의 가드레일 (guardrails)을 완전히 열어젖혔으며, 아동 차단 기능이 막으려 했던 바로 그 내용들을 똑같이 생성해냈다고 주장하며 탈옥 (jailbreak) 사례를 게시했습니다. 이는 Anthropic이 자체적으로 가드레일을 깨뜨리기 위해 수천 시간 동안 레드팀 (red teaming) 활동을 수행하며 노력해왔다는 사실에도 불구하고 일어난 일이었습니다. 하지만 이 탈옥은 어떤 공상 과학 영화 같은 취약점 공격 (exploit)은 아니었습니다. 그것은 실제로는 돈 세탁 (money laundering)과 훨씬 더 유사하게 작동합니다. 만약 Fable에 나쁜 요청을 감시하는 안전 분류기 (safety classifier)가 있다면, 이상한 유니코드 (Unicode) 문자로 요청을 감싸거나, 역할극 파밍 (roleplay farming)을 하거나, 매우 긴 컨텍스트 (context) 대화로 모델을 혼란스럽게 함으로써, 불순한 요청을 작고 무해해 보이는 파편들로 분해할 수 있다면 말입니다.
국가 안보 문제로 인해 더 구체적으로 말씀드릴 수는 없지만, 이 약점은 Anthropic 측에 전달되었고, 처음에는 모델을 내려달라는 요청을 받았으나 그들은 거절했습니다. 그러던 금요일 동부 표준시 오후 5시 21분, Anthropic은 고객이 아닌 미국 정부로부터 서신을 받게 됩니다. 이 서신은 Howard Lutnick 상무장관이 서명한 수출 통제 지침 (export control directive)이었습니다. 그리고 그 명령은 어떤 외국인도 Fable 5 또는 Mythos 5에 접근할 수 없다는 것이었습니다. 해외뿐만 아니라 미국 내에서도 안 되며, 심지어 Anthropic의 외국 태생 직원들조차 그것을 만지는 것이 허용되지 않았습니다.
마지막 내용은 상당히 충격적입니다. 정부가 기업에게 그들 자신의 직원 중 일부는 더 이상 자신들이 만든 제품을 사용할 수 없다고 통보한 것입니다. 이는 최근 Anthropic에 합류한 Andre Karpathy 같은 인물들조차 Fable을 사용할 수 없음을 의미합니다. 해당 지침에 대응하여, 그들은 거대한 빨간 버튼을 누르기로 결정했고 모든 사용자에 대해 Fable과 Mythos를 제거했습니다. 이제 모든 사용자는 조용히 Opus 4.8로 강등되었습니다. 그리고 이것은 연방 정부의 명령 때문에 주요 AI 기업이 서비스 중인 공개 모델을 선반에서 내려놓은 역사상 첫 번째 사례입니다.
많은 개발자들이 현재 Anthropic에 대해 그리 만족스러워하지 않고 있습니다. 왜냐하면 이 모든 상황 외에도, Anthropic이 사용자들에게 명확히 알리지 않은 채 특정 AI 연구 작업에서 Mythos와 Fable의 성능을 의도적으로 저하시키고 있다는 보고에 대해 이미 반발이 있었기 때문입니다. 하지만 다른 이들은 이 모든 일이 Anthropic의 IPO(기업공개) 전 수치를 계속해서 끌어올리는 동시에, 규제적 해자 (regulatory moat)를 구축하기 위해 계산된 홍보 수단(publicity stunt)이었다고 추측하기도 합니다. 하지만 저는 현 시점에서 Anthropic을 진정으로 멈출 수 있는 유일한 것은 경쟁사의 더 나은 모델이라고 생각합니다.
유출된 벤치마크 (benchmark)에 따르면 Mistral이 그 모델을 보유하고 있을지도 모르지만, 우리는 또한 OpenAI와 Google의 새로운 출시를 기다리고 있습니다. 우리가 AI에 대해 듣는 대부분의 내용은 빅테크 (Big Tech)의 끊임없는 과장 광고이거나, Skynet 종말론이 인류를 파멸시킬 것이라고 경고하는 AI 비관론자 (AI doomers)들의 이야기입니다. 하지만 AI 이슈를 실제로 이해하고 싶다면, 오늘 영상의 후원사인 blue.impact를 확인해 보시기 바랍니다. 이들은 AI가 인류에게 더 나은 방향으로 나아가도록 더 많은 사람을 참여시키는 것을 사명으로 하는 비영리 단체입니다. 이들이 이를 수행하는 주요 방법은 'AI의 미래 (future of AI)' 코스와 같은 무료 온라인 강의를 제공하는 것이며, 이 과정은 현재 AI의 위치와 향후 몇 년간 상황이 어디로 향할 수 있는지에 대해 편향되지 않은 소개를 제공합니다.
그들은 또한 AI 거버넌스 (AI governance) 및 생물 보안 (biosecurity)과 같은 주제에 대한 더 기술적인 강의와 함께, AI 안전 (AI safety) 분야에서 일하는 것에 관심이 있는 사람들을 위한 개인 맞춤형 커리어 지원을 제공합니다. BlueDot의 모든 리소스는 자선 기부금으로 운영되기 때문에 무료로 사용할 수 있으며, 이들은 8,000명 이상의 사람들이 Google DeepMind, Stanford HAI, Apollo Research와 같은 조직에 취업할 수 있도록 도왔습니다. 아래 링크에서 그들의 'AI의 미래' 코스를 체험해 보세요. 지금까지 The Code Report였습니다. 시청해 주셔서 감사합니다. 다음 영상에서 뵙겠습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 YouTube Fireship (개발 트렌드)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기