Anthropic은 가장 강력한 모델의 사용을 일시 중단한 후, AI 검증의 필요성을 역설했다

Anthropic은 안전 장치 우회 보고로 인해 발생한 2주간의 일시 중단 이후, 자사의 가장 강력한 모델인 Fable 5에 대한 액세스를 방금 복구했습니다. 이 회사는 가드레일 (guardrails)을 재학습시키고, 단일 실패가 치명적인 결과로 이어지지 않도록 방어 계층을 추가했으며, 특정 우회 행위가 실제로 얼마나 위험한지를 점수화하는 산업 표준을 제안했습니다. 사이버 보안의 세부 사항을 제외하더라도 이 교훈은 일반적이며, AI가 금전적 결정과 맞닿아 있는 모든 곳에서 가장 강력하게 작용합니다. 즉, 모델이 더 유능해질수록 가치는 모델이 무엇을 생성할 수 있느냐가 아니라, 모델이 생성한 결과물을 검증할 수 있느냐로 이동합니다.

실제로 무슨 일이 일어났는가

Anthropic은 6월 9일에 Fable 5와 Mythos 5를 출시했습니다. 두 모델은 기반이 되는 모델을 공유하지만, Fable 5에는 회사가 적용한 역대 가장 강력한 안전 장치가 탑재된 반면, 가드레일이 적은 Mythos 5는 방어적 사이버 보안 작업을 수행하는 소수의 신뢰할 수 있는 파트너들에게만 제공되었습니다. 6월 12일, 미국 정부는 Amazon 연구원들이 Fable 5를 프롬프트하여 소프트웨어 취약점을 식별하도록 유도하고, 한 사례에서는 취약점이 어떻게 악용될 수 있는지 보여주는 코드를 생성하는 방법을 발견했다는 보고를 접한 후 수출 통제를 적용했습니다. 명령이 즉시 효력을 발생하고 실시간으로 국적을 확인할 수 없었기 때문에, Anthropic은 모든 사용자에 대해 두 모델에 대한 액세스를 중단했습니다. 6월 30일에 통제가 해제되었고, Fable 5는 7월 1일에 전 세계적으로 복구되었습니다. 전체 내용은 Anthropic의 자체 게시물에서 확인할 수 있습니다.

헤드라인보다 더 중요한 두 가지 세부 사항이 있습니다. 첫째, Anthropic이 보고된 기술을 테스트했을 때, 자체 모델인 Opus 4.8을 포함하여 GPT-5.5, Kimi K2.7과 같이 성능이 낮은 모델들도 동일한 취약점을 식별할 수 있었으며, 테스트된 모든 모델이 단일 익스플로잇 (exploit) 시연을 재현할 수 있었습니다. 해당 우회 (bypass)는 경계선에 있는 사례였을 뿐, 독보적인 초능력은 아니었습니다. 둘째, 해결책은 더 똑똑한 모델을 만드는 것이 아니었습니다. 그것은 더 강력한 검증 계층 (verification layer)을 구축하는 것이었습니다. 즉, 재학습된 분류기 (classifier)를 통해 이제 해당 특정 기술을 99% 이상의 사례에서 차단하며, 차단된 요청은 Opus 4.8로 재라우팅 (rerouted)됩니다.

패턴: 능력은 저렴해지고 있으며, 검증이 해자 (moat)가 된다

이러한 이야기를 사이버 보안, 정치, 혹은 한 기업에 관한 이야기로 읽으려는 본능이 있습니다. 하지만 이는 실제로 AI의 모든 진지한 활용에 영향을 미치는 변화에 관한 것입니다. 프런티어 연구소 (frontier lab), 성능이 낮은 오픈 모델 (open model), 그리고 경쟁사가 모두 동일한 능력에 도달할 수 있다면, 능력 그 자체는 더 이상 차별화 요소가 되지 않습니다. 당신이 신뢰할 수 있는 도구와 그렇지 않은 도구를 가르는 기준은 그 출력물 (output)을 확인할 수 있는지 여부입니다. Anthropic은 Fable 5의 능력을 낮춤으로써 이 사건에 대응한 것이 아닙니다. 그들은 출력물을 검증하기 더 쉽게 만들고 오용하기 더 어렵게 만듦으로써 대응했습니다. 그것이 이번 움직임의 핵심입니다.

심층 방어 (Defense in depth), 그리고 이것이 단순한 AI 연구소의 아이디어가 아닌 이유

Anthropic은 자사의 안전 접근 방식을 심층 방어 (defense in depth)라고 설명합니다. 즉, 단일 메커니즘이 완벽하다고 신뢰하지 않으며, 시스템 전체가 오용되기 매우 어렵도록 여러 개의 불완전한 메커니즘을 계층화하는 방식입니다. 분류기 (classifiers)가 위험한 요청을 감시합니다. 의도적인 안전 마진 (safety margin)은 주의를 기울이는 방향으로 설정되어, 해로운 요청을 놓칠 위험을 감수하기보다는 일부 무해한 요청을 차단하는 쪽을 택합니다. 인간이 정책을 설정하면, 시스템이 이를 집행합니다.

실제 실사 (due diligence)를 수행해 본 사람이라면 누구나 이 점을 인지할 것입니다. 제대로 된 실사는 항상 같은 방식으로 작동해 왔기 때문입니다. 세련되게 작성된 투자설명서 (CIM)에 등장한다고 해서 단 하나의 수치를 그대로 믿지는 않습니다. 재무제표 (financials)와 대조해 보고, 그다음에는 세무 신고서 (tax return)와 대조합니다. 출처를 확인할 수 없는 주장은 사실이 아니라 의문 사항으로 취급합니다. 아래 표는 해당 연구소의 안전 원칙을 실사 과정의 상응하는 개념들과 매칭한 것입니다.

Anthropic의 안전장치 아이디어	실사의 상응 개념
심층 방어 (Defense in depth), 단일 통제 수단에만 의존하지 않음	문서 간 교차 검증 (Cross-document tie-out): 동일한 수치를 CIM, 재무제표, 세무 신고서 전체에서 확인하는 것
...

탈옥 (jailbreak)의 심각성을 측정하기 위한 공유된 방식

Anthropic 발표에서 가장 미래지향적인 부분은 Amazon, Microsoft, Google 및 기타 파트너들과 함께 초안을 작성한, AI 탈옥 (jailbreak)의 심각성을 점수화하기 위한 산업 프레임워크 제안입니다. 현재는 공통된 표준이 없기 때문에, 새로운 우회 기법이 나타날 때마다 얼마나 시급하게 대응해야 하는지에 대한 불확실성이 발생합니다. 이 제안은 네 가지 질문을 통해 탈옥의 점수를 매깁니다.

기준	질문 내용
능력 향상 (Capability gain)	기존 도구의 범위를 얼마나 벗어나 사용자에게 능력을 제공하는가?
...

심각성에 대한 공유된 어휘는 실사 과정에서 필요하지만 좀처럼 갖춰지지 않는 것과 동일한 것입니다. 즉, 발견된 사항이 얼마나 심각한지를 일관되게 전달할 수 있는 방법입니다. 8페이지의 모순된 내용은 각주에 있는 반올림 오차와 같지 않으며, 이 둘을 동일하게 취급하는 것은 시간을 낭비하거나 리스크를 놓치는 결과를 초래합니다. '느낌 (vibes)'보다는 '점수화 (scoring)'가 더 낫습니다.

AI를 딜 (deal)에 투입할 때의 의미

실질적인 교훈은 "AI를 피하라"가 아니라, "증빙 (receipts)을 요구하라"는 것입니다. 데이터 룸 (data room)을 읽기 위해 모델을 사용한다면, 그 출력값의 신뢰도는 그것을 검증할 수 있는 귀하의 능력에 달려 있습니다. 이는 몇 가지 사항을 반드시 고수해야 함을 의미합니다:

모든 수치는 소스 문서와 페이지가 인용되어야 하며, 열람 및 확인이 가능해야 합니다.
가시적인 폐기 로그(discard log): 도구가 검증할 수 없었던 주장들을 조용히 삭제하는 대신, 질문 형태로 표시해야 합니다.
문서 간 교차 확인(Cross-document tie-out): 동일한 숫자가 CIM(기업 투자 설명서), 재무제표, 그리고 수익률 보고서 전체에서 일치하는지 확인해야 합니다.
귀하의 문서는 일반 소비자용 챗봇(chatbot)에 붙여넣지 않고, 격리 및 암호화된 상태로 유지해야 합니다.
판단은 귀하의 몫으로 남겨두어야 합니다. 도구는 읽고 검증할 뿐이며, 결정은 귀하가 내리는 것입니다.

만약 어떤 도구가 특정 문장을 왜 신뢰해야 하는지 설명하지 못한다면, 그 출력값을 자신의 작업 과정을 보여주기를 거부하는 분석가를 대하는 것과 동일하게 취급하십시오.

핵심 요약 (The takeaway)

AI에 부여해야 할 적절한 신뢰의 양은 귀하가 검증할 수 있는 만큼입니다. Anthropic은 최전선(frontier)에서 이 원칙을 증명하기 위해 2주를 소비하고 팀 규모를 두 배로 늘렸습니다. 이는 모든 인수(acquisition) 과정에서 축소판 형태로 적용됩니다. 출처가 명시되지 않은 자신만만한 데이터 룸(data room) 요약은 지름길로 위장한 부채(liability)이며, 모든 주장이 소스로 연결되는 요약은 진정한 경쟁 우위(edge)입니다.

로그인 없이도 합성 거래(synthetic deal)를 통해 '인용하거나 삭제하라(cite-or-cut)'는 규율을 확인할 수 있습니다. 샘플 브리프(sample brief)에서는 검증된 주장이 출처를 보여주고, 모순되는 부분은 양측을 모두 보여주며, 검증 불가능한 주장은 귀하의 눈앞에서 폐기되는 것을 볼 수 있습니다. 더 긴 논증을 원하시면 실사(Due Diligence)를 위해 AI를 신뢰할 수 있는가(Can You Trust AI for Due Diligence)를 읽어보시고, 방법론에 대해서는 실사를 위해 Claude를 사용하는 방법(how to use Claude for due diligence)을 참조하십시오.

자주 묻는 질문 (Frequently asked questions)

Anthropic은 왜 Fable 5를 일시 중단했나요? 2026년 6월 12일, 안전장치 우회 보고에 대응하여 미국 정부가 수출 통제(export controls)를 적용함에 따라, Anthropic은 사용자의 국적을 실시간으로 검증할 수 없었기에 Fable 5 및 Mythos 5에 대한 접근을 중단했습니다. 이후 통제가 해제되고 더 강력한 안전장치가 추가된 7월 1일에 접근 권한이 복구되었습니다.

AI 탈옥 (jailbreak)이란 무엇인가요? 탈옥 (jailbreak)은 모델이 자체적인 안전장치를 우회하여 시스템이 차단하도록 설계된 출력을 생성하도록 유도하는 프롬프팅 (prompting) 방식입니다. Anthropic은 대부분의 탈옥 (jailbreak)이 광범위한 유해 행위 범주를 해제하기보다는 하나의 특정 동작만을 해제하는 좁은 범위의 것이라고 언급했습니다.

Fable 5 사건이 AI가 실사 (due diligence)에 안전하지 않다는 것을 의미하나요? 아닙니다. 이는 AI의 출력을 맹목적으로 신뢰하기보다는 검증해야 한다는 점을 상기시켜 주는 사례입니다. 모든 주장이 확인 가능한 출처를 인용하고 검증 불가능한 주장은 폐기한다는 전제하에, 읽기 및 1차 분석 용도로 AI는 진정으로 유용합니다.

AI 안전에서의 심층 방어 (defense in depth)란 무엇인가요? 단일 실패가 시스템 전체를 노출시키지 않도록 여러 개의 독립적인 안전장치를 계층화하는 관행을 의미합니다. Anthropic은 어느 하나에만 의존하는 대신, 학습된 거부 (trained refusals), 분류기 (classifiers), 신중한 안전 마진 (safety margin), 그리고 사후 분석 (after-the-fact analysis)을 함께 사용합니다.

중대한 금융 결정을 위해 AI를 신뢰할 수 있나요? 오직 그 출력을 검증할 수 있는 범위 내에서만 가능합니다. AI를 사용하여 느린 1차 읽기 과정을 압축하되, 모든 수치에 대해 인용을 요구하고 출처가 없는 모든 내용은 의문 사항으로 취급하십시오. 인용되지 않은 요약본을 바탕으로 행동하지 마십시오.

Anthropic의 탈옥 심각도 프레임워크 (jailbreak severity framework)란 무엇인가요? Amazon, Microsoft, Google과 함께 초안을 작성한 제안된 산업 표준으로, 탈옥 (jailbreak)의 능력 이득 (capability gain), 범위 (breadth), 무기화 용이성 (ease of weaponization), 그리고 발견 가능성 (discoverability)을 점수화하여 개발자와 정부가 얼마나 시급하게 대응해야 하는지 판단할 수 있도록 합니다.

Deal OS에서 실제처럼 보이는 거래에 대해 검증되고 출처가 인용된 실사 내용을 확인해 보세요.

Insights

Anthropic은 가장 강력한 모델의 사용을 일시 중단한 후, AI 검증의 필요성을 역설했다

요약

핵심 포인트