본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 17. 00:24

Fable 5 금지: AI 거버넌스가 모델 내부에 존재할 때 발생하는 일

요약

Anthropic의 Fable 5 모델이 탈옥 우려로 인한 미국 정부의 수출 통제 명령으로 인해 전 세계적으로 서비스가 중단되는 사건을 다룹니다. 모델 내부에 내장된 거버넌스 방식이 가진 구조적 취약성과 정책적 리스크를 분석합니다.

핵심 포인트

  • 미국 정부의 명령으로 Anthropic Fable 5 모델의 전 세계 서비스가 즉각 중단됨
  • 탈옥(Jailbreak) 우려가 서비스 셧다운의 직접적인 원인이 됨
  • 모델 내장형 거버넌스는 모델의 실패 모드를 그대로 계승하는 구조적 한계가 있음
  • 외국인 사용자를 실시간 식별할 수 없는 기술적 한계로 인해 전면 차단 결정

Anthropic은 2026년 6월 9일에 Fable 5를 출시했습니다. 72시간 후인 6월 12일 오후 5시 21분(동부 표준시), 미국 정부는 전 세계 모든 사용자에 대해 해당 모델을 오프라인 상태로 전환할 것을 명령했습니다.

만약 당신의 프로덕션 에이전트(production agents)가 그 3일 동안 Fable 5로 이전했다면, 이제 그것들은 작동 불능 상태가 되었습니다. 속도가 제한된 것도, 성능이 저하된 것도 아닙니다. 마이그레이션 기간도, 사전 통지도 없이 오프라인이 된 것입니다.

미국 정부는 탈옥(jailbreak)을 촉발된 우려 사항으로 언급했습니다. Anthropic의 자체 공식 성명은 이 탈옥을 "본질적으로 모델에게 특정 코드베이스를 읽고 모든 소프트웨어 결함을 수정하도록 요청하는 것"이라고 설명합니다. Anthropic은 이러한 기능이 이미 GPT-5.5 및 다른 프런티어 모델(frontier models)에서 사용 가능하다는 점을 주장하고 있습니다. Anthropic은 근거에 대해 논쟁하면서도 명령에는 따르고 있습니다. 정책적 결과가 무엇이든, 기술적 결과는 이미 눈에 보입니다. 모델 내부에 내장된 거버넌스(governance)는 모델과 함께 생존하고 모델과 함께 소멸하는 거버넌스입니다.

Fable 5에 무슨 일이 일어났는가

2026년 6월 12일, 미국 정부는 Anthropic에 대해 미국 내외를 불문하고 Anthropic의 외국 태생 직원들을 포함한 모든 외국인(foreign national)의 Fable 5 및 Mythos 5에 대한 모든 접근을 중단하도록 명령하는 수출 통제 지침을 발행했습니다. Anthropic이 외국인 사용자를 실시간으로 신뢰성 있게 식별하고 격리할 수 없었기 때문에, 유일하게 준수 가능한 경로는 전 세계 모든 고객에 대해 완전한 셧다운(shutdown)을 실시하는 것이었습니다. Anthropic의 다른 모든 모델에 대한 접근은 영향을 받지 않았습니다.

Fable 5는 3일 전 Anthropic의 가장 유능한 공개 가능 모델로 출시되었습니다. Anthropic은 출시 전 안전 분류기(safety classifiers)에 대해 수천 시간의 레드팀(red-teaming) 작업을 투자했습니다. 이 분류기들은 사이버 보안, 생물학 및 화학, 그리고 증류(distillation) 분야에서의 오용을 줄이도록 설계되었습니다. Anthropic은 중단 성명에서 "우리의 안전장치는 매우 강력하여 많은 사용자가 지나치게 광범위하다고 불평할 정도입니다"라고 언급했습니다.

그 어떤 것도 중단을 막지는 못했습니다. 정부의 지침은 높은 수준의 기술적 입증을 요구하지 않았습니다. 특정 조건 하에서 좁은 범위의 정보를 추출할 수 있는 비보편적 탈옥 (non-universal jailbreak)만으로도 수억 명의 사용자에게 영향을 미치는 서비스 중단을 유발하기에 충분했습니다.

왜 모델 계층 거버넌스 (Model-layer Governance)는 계속 실패하는가?

**모델 계층 AI 거버넌스 (Model-layer AI governance)**는 내장된 분류기 (classifiers), 안전 계층 (safety layers), 그리고 학습된 거부 (trained refusals)를 통해 AI 모델 자체가 행동 규칙을 강제하는 접근 방식입니다. 모델의 안전 기능은 모델의 일부입니다. 따라서 안전 기능이 침해되면 모델 자체가 침해되는 것입니다.

이는 아키텍처 패턴의 문제이지, Anthropic만의 특정 설계 결함이 아닙니다. 정책을 강제하기 위해 모델에 의존하는 모든 거버넌스 접근 방식은 모델의 실패 모드 (failure modes)를 거버넌스의 실패로 그대로 물려받게 됩니다.

탈옥 (Jailbreaks)은 이 현상의 가장 가시적인 형태입니다. 추론 체인 (inference chain)의 일부인 분류기는 추론 체인을 통해 조작될 수 있습니다. 신뢰할 수 있는 명령과 신뢰할 수 없는 콘텐츠가 모두 동일한 토큰 스트림 (stream of tokens)으로 전달되기 때문입니다. Anthropic은 공개 답변에서 이를 직접적으로 언급했습니다: "우리는 현재 어떤 모델 제공업체에게도 완벽한 탈옥 저항성을 구현하는 것은 불가능하다고 의심합니다." 이는 향후 버전에서 수정될 버그가 아니라, 구조적 한계에 대한 인정입니다.

하지만 탈옥은 모델 계층 거버넌스의 실패 벡터 중 하나일 뿐입니다. 다른 사례로는 다음과 같은 것들이 있습니다:

규제 조치 (Regulatory action). 6월 12일은 정부가 상업용 AI 모델을 촉박한 통보와 함께 오프라인 상태로 만들라고 명령한 첫 번째 공개 사례입니다. 이중 용도 (dual-use) AI 역량에 대한 수출 통제는 활발히 논의되고 확장 중인 정책 영역입니다. 특정 모델에 거버넌스 의존성을 구축한 조직들은 이제 외부의 단일 장애점 (single point of failure)을 갖게 되었습니다. 이는 모델 제공업체에 의해, 그리고 궁극적으로는 정부 당국에 의해 통제됩니다.

조용한 모델 업데이트 (Silent model updates). 모델 제공업체가 새로운 버전을 배포할 때, 분류기 (classifier)의 동작이 예고 없이 변경될 수 있습니다. 이전보다 더 엄격하거나 느슨해진 안전성 업데이트는 귀하의 보안 로그에 나타나지 않습니다.

제공업체 사고 및 정책 변경 (Provider incidents and policy changes). 서비스 약관의 변경, 제공업체 계층에서의 서비스 중단, 또는 특정 사용 사례에 대한 기능 제한은 모두 동일한 결과를 초래할 수 있습니다. 즉, 귀하가 의존하고 있던 행동 제어 (behavioral control) 기능이 더 이상 사용할 수 없게 되거나 예상대로 동작하지 않게 됩니다.

각 사례에서 발생하는 실패의 본질은 동일합니다. 바로 작동을 멈추기 전까지는 존재를 알지 못했던 거버넌스 의존성 (governance dependency)입니다.

지금 당장 팀이 확인해야 할 사항은 무엇인가요?

다음 모델 중단 사태가 발생하기 전에 세 가지 점검을 수행하십시오.

1. 거버넌스 의존성 매핑 (Map your governance dependencies). 프로덕션 에이전트가 의존하는 모든 행동 제어 항목을 나열하십시오. 각 항목에 대해 다음을 확인하십시오: 이것이 모델에 의해 강제되는 것인가 (시스템 프롬프트, 학습된 거부 (trained refusals), 또는 제공업체 계층의 분류기를 통해)? 아니면 요청을 처리하는 모델과 상관없이 독립적으로 실행되는가? 첫 번째 열에 해당하는 모든 것은 모델이 변경될 때 함께 움직이는 거버넌스 의존성입니다.

2. 모델 교체 테스트 (Test model substitution). 행동 제어 기능을 깨뜨리지 않고 에이전트의 모델을 다른 모델로 전환할 수 있습니까? 만약 대답이 '아니오'이거나, 혹은 정말로 모르겠다면, 귀하는 모델 계층 거버넌스 (model-layer governance)를 가지고 있는 것입니다. 모델 불가지론적(model-agnostic) 거버넌스 계층 (governance layer)은 코드 변경 없이도 모델 교체 시 살아남아야 합니다.

3. 거버넌스를 위한 시스템 프롬프트 감사 (Audit system prompts for governance). 시스템 프롬프트에 내장된 "경쟁사 제품을 절대 언급하지 마십시오" 또는 "데이터를 삭제하기 전에 항상 사용자의 확인을 받으십시오"와 같은 지침은 모델 계층 거버넌스입니다. 모델은 대부분의 경우 이러한 지침을 따릅니다. 하지만 적대적 조건(adversarial conditions) — 프롬프트 인젝션 (prompt injection), 컨텍스트 조작 (context manipulation), 탈옥 (jailbreaks) — 하에서는 이러한 지침을 덜 신뢰성 있게 따릅니다. 시스템 프롬프트 지침은 모델이 수행하려고 시도하는 요청일 뿐입니다. 이는 인프라에 의해 강제되는 정책이 아닙니다.

이러한 점검 사항 중 어느 것도 즉각적인 수정(remediation)을 요구하지 않습니다. 대신 여러분이 어디에 노출되어 있는지, 그리고 얼마나 노출되어 있는지를 알려줍니다.

Waxell의 처리 방식

Fable 5 중단 사태로 인해 가장 적은 혼란을 겪은 조직은 모델 계층(model layer) 상단에서 거버넌스를 실행하던 조직들이었습니다. 이 계층에서는 제어 기능이 특정 모델에 내장되어 있지 않으며, 모델이 변경되더라도 제어 기능이 함께 이동하지 않습니다.

Waxell Runtime은 어떠한 요청이 모델에 도달하기 전, 실행 전 제어(pre-execution controls)로서 50개 이상의 정책 카테고리를 강제합니다. 콘텐츠 정책, 범위 강제(scope enforcement), 비용 제한, 킬 스위치(kill-switch) 규칙 등 모든 것이 모델이 따르려고 시도하는 지침이 아닌, 인프라로서 작동합니다. Fable 5가 오프라인 상태가 되었을 때, Waxell Runtime을 사용하는 팀들은 단 하나의 거버넌스 규칙도 변경하지 않고 에이전트가 Claude Haiku, GPT-5.5 또는 기타 지원되는 다른 모델로 라우팅되도록 재설정할 수 있었습니다. 단 두 줄의 초기화, 200개 이상의 지원 라이브러리, 재빌드(rebuild) 불필요.

동일한 아키텍처가 다른 장애 모드(failure modes)도 처리합니다. 모델 제공업체가 분류기(classifier) 동작을 변경하는 버전 업데이트를 배포하더라도, Waxell Runtime 정책은 변경되지 않습니다. 예산 문제로 요청을 더 저렴한 모델로 라우팅해야 하는 경우에도 행동 제어(behavioral controls)는 자동으로 이전됩니다. 모델은 여러분의 거버넌스 플레인(governance plane)이 통과시키는 하나의 구성 요소일 뿐이며, 거버넌스가 구축되는 기반 그 자체가 아닙니다.

Waxell Observe는 운영 팀에 각 에이전트 호출이 어떤 모델에 도달했는지, 어떤 정책이 점검되었는지, 그리고 에이전트가 무엇을 수행했는지에 대한 실시간 가시성을 제공합니다. 계획되었든 그렇지 않든 모델이 변경될 때, 여러분은 어떤 모델에 대해 무엇이 언제 실행되었는지에 대한 완전한 추적(trace) 정보를 보유하게 됩니다.

직접 구축하지 않은 외부 에이전트, 제3자 도구 또는 MCP 연결 시스템과 함께 작업하는 팀의 경우, Waxell Connect를 통해 외부 당사자의 코드 변경이나 SDK 도입 없이도 해당 에이전트들에 동일한 거버넌스 제어를 적용할 수 있습니다.

Fable 5 사건은 본질적으로 집중 리스크 (concentration risk) 문제에 관한 것입니다. 즉, 귀하의 프로덕션 거버넌스 제어 중 얼마나 많은 부분이 단일 모델이 가용성을 유지하고 침해되지 않는 상태로 남아 있는 것에 의존하고 있는가 하는 문제입니다. 만약 그 대답이 "대부분"이라면, 이는 다음 장애가 발생한 후가 아니라 발생하기 전에 반드시 해결해야 할 노출 (exposure)입니다.

waxell.ai/get-access에서 액세스 권한을 얻으세요.

자주 묻는 질문 (Frequently Asked Questions)

모델 계층 AI 거버넌스 (model-layer AI governance)란 무엇인가요?
모델 계층 AI 거버넌스는 AI 모델 자체를 통해 구현된 행동 제어 (behavioral controls)를 의미합니다. 여기에는 학습된 안전 분류기 (safety classifiers), 시스템 프롬프트 지침 (system prompt instructions), 또는 제공자 수준의 제한 사항 (provider-level restrictions) 등이 포함됩니다. 모델이 규칙을 집행합니다. 모델이 침해되거나, 사용 불가능해지거나, 변경되면 이러한 제어 기능은 저하되거나 완전히 사라집니다.

모델 계층 거버넌스와 모델 상위의 거버넌스 계층 (governance layer above the model)의 차이점은 무엇인가요?
모델 상위의 거버넌스 계층은 인프라 (infrastructure)로서 작동합니다. 이는 요청을 처리하는 모델이 무엇인지와 관계없이 실행 전 점검 (pre-execution checks), 출력 필터 (output filters), 그리고 범위 제어 (scope controls)를 통해 정책을 집행합니다. 이러한 정책은 코드 변경 없이도 모델 교체 시에도 유지됩니다. 모델 계층 거버넌스는 이를 제공할 수 없습니다. 모델과 하나로 묶여 있기 때문입니다.

Anthropic의 다른 모델들도 수출 통제 명령의 영향을 받았나요?
아니요. Anthropic의 성명에 따르면, 다른 모든 Anthropic 모델에 대한 액세스는 영향을 받지 않았습니다. Fable 5와 Mythos 5만 비활성화되었습니다.

Anthropic은 왜 외국인뿐만 아니라 모든 고객의 액세스를 차단했나요?
미국 정부의 지침은 미국 내외를 불문하고 Anthropic의 외국 태생 직원들을 포함하여 모든 외국인(foreign national)의 액세스를 금지했습니다. Anthropic이 외국인 사용자를 실시간으로 신뢰성 있게 식별하고 분리할 수 없었기 때문에, 유일하게 규정을 준수할 수 있는 방법은 전 세계 모든 고객에 대해 완전히 차단하는 것이었습니다.

Waxell Runtime을 사용하면 모델이 중단되었을 때 제 에이전트(agents)를 보호할 수 있나요?
Waxell Runtime은 모델 제공업체의 가용성 결정(availability decisions)을 제어하지 않습니다. 이는 제3자 거버넌스 도구(third-party governance tool)의 권한 밖의 일입니다. Waxell Runtime이 보호하는 것은 귀하의 거버넌스 태세(governance posture)입니다. Waxell Runtime을 통해 강제되는 정책은 특정 모델 내부에 내장되지 않으므로, 다른 모델로 라우팅(route)할 때도 계속 작동합니다. 귀하의 팀은 거버넌스 규칙을 처음부터 다시 구축할 필요 없이 모델 마이그레이션(model migration)을 완료할 수 있습니다.

Anthropic은 미국 정부의 결정에 동의했나요?
아니요. Anthropic의 공개 성명에 따르면, 해당 기업은 "좁은 범위의 잠재적 탈옥(jailbreak) 발견이 수억 명에게 배포된 상용 모델을 회수(recalling)해야 할 원인이 되어야 한다는 점"에 동의하지 않습니다. Anthropic은 이번 조치가 투명성(transparency), 공정성(fairness), 그리고 기술적 근거(technical grounding)의 원칙을 준수하지 않는 것이라고 설명합니다. 회사는 이번 조치가 오해에서 비롯된 것이라고 믿으며, 액세스(access)를 복구하기 위해 노력하고 있다고 밝혔습니다.

출처:

— Nextgov/FCW](https://www.nextgov.com/artificial-intelligence/2026/06/anthropic-suspends-top-ai-models-after-us-export-control-order/414173/)

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0