_한 연구자가 Anthropic의 가장 강력한 모델에 'fix this code'라고 입력하자, 미국 정부는 90분 만에 이를 차단했습니다

한 연구자가 Anthropic의 가장 강력한 모델에 'fix this code'라고 입력하자, 미국 정부는 90분 만에 이를 차단했습니다. 취약점은 실재했습니다. 그 전례는 더 거대합니다.

6월 9일, Anthropic은 회사가 구축한 것 중 가장 유능한 AI 모델인 Fable 5를 출시했습니다. 3일 후, 미국 정부는 그들에게 모델을 오프라인 상태로 전환하라고 지시했습니다.

차단을 촉발한 취약점은 프롬프트(prompt)였습니다. 정교한 적대적 공격(adversarial attack)도, 새로운 익스플로잇 체인(exploit chain)도, 추론 스택(inference stack)의 제로 데이(zero-day)도 아니었습니다. 한 연구자가 채팅 인터페이스에 세 단어(fix this code)를 입력하자, 모델은 안전 시스템이 억제해야 했던 사이버 보안 취약점에 관한 정보를 제공했습니다. Pliny the Liberator로 알려진 탈옥(jailbreak) 연구자는 멀티 에이전트 분해(multi-agent decomposition), 유니코드 트릭(Unicode tricks), 내러티브 프레이밍(narrative framing)을 결합한 더 정교한 버전을 게시했습니다. 결과는 같았습니다: Fable은 설계자들이 금지 구역으로 분류했던 출력을 생성했습니다.

상무부(Commerce Department)는 6월 12일 오후 5시 21분, 국가 안보를 이유로 지침을 발행했습니다. Anthropic에게는 90분이 주어졌습니다. 이 명령은 무기 및 이중 용도 기술(dual-use technology)을 위해 설계된 법적 프레임워크인 수출 통제 권한(export control authority)을 사용하여, 모든 외국인이 Fable 5와 그 기반 모델인 Mythos 5에 접근하는 것을 금지했습니다. 해당 범주에는 Anthropic의 자체 엔지니어 일부를 포함하여 미국 내에서 근무하는 비시민권자가 포함됩니다. Anthropic은 자사 인력의 일부를 배제하는 시스템을 유지하는 대신, 두 모델을 모두 완전히 오프라인으로 전환했습니다.

전통적인 해석은 정부가 책임감 있게 행동했다는 것입니다. 강력한 AI 모델에 안전 우회(safety bypass) 기능이 있었습니다. 국가 안보가 위험에 처했습니다. 책임 있는 성인들이 개입한 것입니다.

덜 전통적인 해석은 누가 경보를 울렸는가에서 시작됩니다.

Amazon은 내부 연구팀을 통해 이 우회(bypass)를 발견했습니다. Amazon의 CEO Andy Jassy는 정부 관리들에게 이 발견 내용을 직접 전달했습니다. Amazon은 Anthropic에 130억 달러를 투자했으며, 최대 250억 달러까지 투자하기로 약속했습니다. Amazon은 AWS에서 해당 모델을 호스팅합니다. Anthropic은 향후 10년 동안 AWS 인프라에 1,000억 달러 이상을 지출하겠다고 약속했습니다. 그리고 Amazon 자체의 AI 제품인 Bedrock과 Nova는 Amazon이 오프라인으로 전환하는 데 도움을 준 바로 그 모델과 직접 경쟁하고 있습니다.

Jassy는 선의로 행동했을 수도 있습니다. 취약점은 실재했습니다. 하지만 전달 경로가 중요합니다. 발견된 정보는 모델을 만든 회사를 건너뛰어 기업 경쟁사에서 행정부로 전달되었습니다. Anthropic은 출시 전 수천 시간 동안 Fable의 안전 장치를 레드팀 (red-team) 테스트하기 위해 미국 정부, 영국 AI 안전 연구소 (UK AI Safety Institute), 그리고 민간 단체들과 협력했다고 밝혔습니다. 행정부는 출시를 연기하도록 압박했습니다. Anthropic은 이를 거절했습니다. 그 뒤 수출 통제 서한이 뒤따랐습니다.

Anthropic의 대응은 신중했습니다. Dario Amodei는 행정부 고위 관리들과의 통화에서 해당 우회(bypass)는 매우 제한적이었으며, 이를 통해 드러난 정보는 이미 공개적으로 이용 가능한 것이었고, 안전 우회 없이도 경쟁 AI 시스템을 통해 동일한 결과를 얻을 수 있다고 주장했습니다. 회사는 직원들을 워싱턴으로 보냈습니다. 행정부 내부의 분위기는 달랐습니다. Anthropic에 기회를 주려고 노력했던 한 관리는 Axios에 다음과 같이 말했습니다: "그들이 우리를 망쳐놓았습니다."

이 에피소드를 중요하게 만드는 것은 취약점 그 자체가 아닙니다. 탈옥 (Jailbreak)은 발생합니다. 모든 프런티어 AI (frontier AI) 시스템에는 탈옥이 존재합니다. OpenAI의 모델들, Google의 Gemini, Meta의 오픈 소스 Llama 모두 Fable을 무력화한 것만큼이나 정교하지 않은 기술을 사용하여 우회되었습니다. 문제는 왜 이 모델의 이 탈옥 (jailbreak)이 이러한 반응을 이끌어냈는가 하는 점입니다.

한 가지 답은 Anthropic이 안전성 (safety)을 기반으로 브랜드를 구축했다는 점입니다. 이 회사는 AI 개발이 적절한 안전장치 없이 너무 빠르게 진행되고 있다고 믿고 떠난 전 OpenAI 연구원들에 의해 설립되었습니다. Anthropic은 책임 있는 스케일링 정책 (responsible scaling policies)을 발표하고, Constitutional AI를 만들었으며, 해석 가능성 (interpretability) 연구에 투자했습니다. 규제 기관, 투자자, 그리고 대중에게 전달한 메시지는 '우리는 신중한 사람들이다'라는 것이었습니다. 신중하다고 자처하는 이들이 탈옥 (jailbreak)을 당했을 때의 정치적 비용은, 애초에 신중함을 내세우지 않았던 이들이 탈옥을 당했을 때보다 더 높습니다. 브랜드가 곧 부채 (liability)가 되는 것입니다.

또 다른 답은 구조적 (architectural)인 측면입니다. Amazon은 투자자, 인프라 제공자, 그리고 경쟁자의 교차점에 위치해 있습니다. 이전의 어떤 기술 시대도 이러한 구성을 만들어내지 못했습니다. Standard Oil은 경쟁사의 정유 시설을 호스팅하지 않았습니다. AT&T는 자신이 통화 경로를 제공하는 기업들에 자금을 지원하지 않았습니다. AI 산업은 여러분의 컴퓨팅 자원 (compute)을 제공하고, 연구 자금을 지원하며, 여러분의 제품과 경쟁하는 엔티티가 적절한 관료에게 전화 한 통을 하는 것만으로도, 여러분을 폐쇄시키는 법적 기제를 작동시킬 수 있는 일련의 관계를 만들어냈습니다. 수출 통제 프레임워크 (export control framework)는 이를 위해 설계되지 않았습니다. 그것은 원심분리기나 암호화 칩을 위해 설계된 것이지, 클라우드 제공업체와 그 최대 고객 사이의 상업적 관계를 위해 설계된 것이 아닙니다.

90분이라는 마감 기한은 가장 중요한 세부 사항입니다. 그것이 Anthropic에게 불공정했기 때문이 아니라 (물론 회사 측은 분명히 그렇게 믿고 있지만), 그것이 선례를 남기기 때문입니다. 미국 정부는 국가 안보 권한을 사용하여, 사전 통보도 없고, 무엇이 위반인지에 대한 공개된 기준도 없으며, 항소 절차도 없이, 전 세계적으로 AI 기업의 가장 중요한 제품을 2시간 이내에 중단하도록 강제할 수 있음을 입증했습니다.

이제 전 세계의 모든 AI 기업은 아직 존재하지 않는 규칙 아래에서 운영되고 있습니다. 정부는 그러한 규칙 없이도 행동할 수 있음을 입증했습니다. 앞으로의 문제는 이 권한이 정책(공표된 표준, 정의된 임계값, 검토 기간)을 통해 행사될 것인지, 아니면 전화 한 통을 통해 행사될 것인지입니다. 그리고 다음 전화가 규제 기관으로부터 올지, 아니면 경쟁사로부터 올지 여부입니다.

Anthropic은 정부가 규제하기 전에 AI 기업들이 스스로를 규제해야 한다는 논거를 구축하는 데 수년을 보냈습니다. Fable 에피소드는 아무도 계획하지 않았던 제3의 선택지를 시사합니다. 그것은 기업 정보(corporate intelligence)에 의해 촉발되고, 프레임워크(framework)도 없이 90분이라는 제한 시간 내에 이루어지는 임시방편적 개입(ad hoc intervention)을 통한 규제입니다.

안전 연구원들은 AI에 가드레일(guardrails)이 필요하다는 점은 옳았습니다. 하지만 누가 그것을 만들 것인가에 대해서는 틀렸습니다.

원문은 The Synthesis에 게시되었습니다 — 지능의 전환을 내부에서 관찰하며.

Insights

_한 연구자가 Anthropic의 가장 강력한 모델에 'fix this code'라고 입력하자, 미국 정부는 90분 만에 이를 차단했습니다

요약

핵심 포인트

댓글

2026년 8월 6일 목요일 은 가격: 은 가격, 6월 이후 최고가로 시작

United Internet 2분기 실적 발표 주요 내용

평생 사용할 나만의 AI 벤치마크를 만들었다 — 차이가 난 것은 「지능」이 아니었다

ACI Worldwide 2분기 실적 발표 주요 내용

2026년 8월 6일 목요일 은 가격: 은 가격, 6월 이후 최고가로 시작

United Internet 2분기 실적 발표 주요 내용

평생 사용할 나만의 AI 벤치마크를 만들었다 — 차이가 난 것은 「지능」이 아니었다

ACI Worldwide 2분기 실적 발표 주요 내용