FABLE 5가 돌아왔습니다. 이제 두 명의 주인에게 복종합니다.

18일 전, 저는 지구상에서 가장 똑똑한 AI가 제가 문장을 쓰는 도중에 갑자기 암전되었던 그 밤에 대해 글을 썼습니다. 인도는 새벽 2시 51분이었고, 뉴욕은 오후 5시 21분이었습니다. 제가 결코 보지 못한 한 통의 서신이 지구 반대편을 가로질러 제가 비용을 지불하며 사용하던 모델의 전원을 꺼버렸습니다. 저는 그 글의 마지막에 많은 사람이 극적이라고 느꼈을 법한 말을 남겼습니다. 당신은 그것을 결코 소유한 적이 없다.

7월 1일, 그것이 돌아왔습니다.

A break in soft clouds at golden hour, warm terracotta light widening through the gap

Fable 5는 수요일에 전 세계적으로 복귀했습니다 — Claude.ai, Claude Platform, Claude Code, Cowork 모두 포함됩니다. 미국 정부는 6월 30일에 수출 통제를 해제했습니다. Lutnick 상무장관은 두 번째 서신을 보냈고, 이번 서신은 첫 번째 서신을 철회하는 내용이었습니다. 시작부터 끝까지 18일이 걸렸습니다. 누군가가 출시한 가장 강력한 모델이 암전되었고, 2주 반 동안 암전 상태를 유지하다가, 서명 하나가 이전과 마찬가지로 서명 하나에 의해 꺼졌던 것과 같은 방식으로 다시 켜졌습니다.

그리고 타임라인이 핵심이 아닙니다. 핵심은 바로 _약관(terms)_입니다.

부활의 세부 조항을 읽어보십시오

당신이 의존하던 것이 사라졌다가 다시 돌아올 때, 본능적인 반응은 안도감입니다. 저 역시 약 한 시간 동안은 그랬습니다. 그러다 실제로 무엇이 변했는지 읽게 되었고, 안도감은 제가 직업으로 삼고 있는 일로 바뀌었습니다. 저는 실패 표면(failure surface)을 매핑하기 시작했습니다.

Fable 5가 어떤 모습으로 돌아왔는지 알려드리겠습니다.

그것은 셧다운(shutdown)을 유발했던 우회(bypass)를 포착하기 위해 특별히 훈련된 **새로운 안전 분류기 (safety classifier)**를 갖추고 돌아왔습니다 — Anthropic은 이것이 해당 기술을 99% 이상의 사례에서 차단한다고 말합니다. 좋습니다, 괜찮습니다, 그것은 유능한 엔지니어링입니다. 하지만 분류기가 작동할 때 어떤 일이 벌어지는지 보십시오. 만약 분류기가 당신의 요청을 플래그(flag)하면, 당신은 알림을 받게 되며 당신의 프롬프트(prompt)에는 Fable 5 대신 Claude Opus 4.8이 답변하게 됩니다. 당신이 선택한 모델은 조용히 물러나고 다른 모델이 그 자리를 대신해 답변합니다. 대부분의 경우, 당신은 당신이 실제로 어떤 두뇌와 대화했는지 결코 알 수 없을 것입니다.

그것은 정부의 자리를 테이블에 확보하며 돌아왔습니다. Anthropic은 향후 모델 출시 프로토콜에 대해 미국 정부와 협력하고, 발견된 악의적인 활동을 보고하며, 국가 안보 관련 역량을 실질적으로 진보시키는 미래 모델에 대해 지정된 정부 파트너에게 확장된 조기 액세스 (expanded early access) 권한을 부여하기로 합의했습니다. 상무부(Commerce Department) 산하의 자체 테스트 기관인 CAISI가 안전장치를 평가하고 승인했습니다. 이것은 고객에게 다시 돌려주는 단순한 임대 도구가 아닙니다. 이것은 감독 하에 다시 돌려주는 임대 도구입니다.

그리고 그것은 자신의 머리에 현상금을 걸며 돌아왔습니다. 연구자들이 Fable 5에서 발견한 새로운 탈옥 (jailbreak) 사례를 검토를 위해 제출하는 HackerOne 프로그램이 그것입니다. 이는 진정으로 바람직한 관행입니다. 또한 이는 해당 모델이 다시 뚫릴 수 있다는 점, 즉 다음번 Amazon 스타일의 보고서가 '만약'의 문제가 아니라 '언제'의 문제라는 점을 영구적이고 공개적으로 인정하는 것이기도 합니다. 그리고 그 보고서가 발표될 때, 당신은 이미 그 대응이 어떤 모습일지 알게 될 것입니다. 왜냐하면 방금 리허설을 지켜보았기 때문입니다.

이 모든 것이 Anthropic을 악당으로 만들지는 않습니다. 저는 지난 6월에도 그렇게 말했고 다시 한번 말하겠습니다. 그들은 원래의 명령에 공개적으로 이의를 제기했고, 법적 명령은 선택 사항이 아니기에 준수했으며, 모델을 되찾기 위해 고된 엔지니어링 작업을 수행했습니다. 여기서의 모든 개별적인 결정은 방어 가능합니다. 바로 그 점이 당신의 주의를 끌어야 하는 부분입니다. 이것은 나쁜 기업에 관한 이야기가 아닙니다. 이것은 당신이 그 위에 구축하고 있는 것의 **형태 (shape)**에 관한 이야기이며, 이제 그 형태는 스위치를 잡는 손이 하나가 아니라 두 개가 되었습니다.

스위치는 사라지지 않았습니다. 두 번째 운영자가 생겼을 뿐입니다.

6월의 교훈은 스위치가 존재한다는 사실 그 자체였습니다. 즉, 타인의 서버에 있는 모델은 당신도 아니고 벤더(vendor)도 아닌 제3자에 의해 꺼질 수 있다는 것입니다. 어떤 이들은 이에 반발했습니다. 그들은 이것이 일회성 사건이라고 말했습니다. 수출 통제(export-control)에 따른 패닉이었고, 금요일 오후의 과잉 반응이었으며, 이미 해결되었다고 말입니다.

그것은 해결되었습니다. 그리고 그 해결 과정은 중단 사태보다 더 강력하게 그 논점을 증명했습니다.

그것이 어떻게 돌아왔는지 보십시오. 누군가가 그 전환(switch)이 실수였다고 결정하고 이를 제거해서 돌아온 것이 아닙니다. 그것은 전환이 반대 방향으로 뒤집히면서, 그 주변에 새로운 기계 장치들이 볼트로 고정된 채로 돌아왔습니다. 분류기(classifier)는 요청이 전달되는 도중에 당신의 요청을 재지정할 수 있는 모델 내부의 스위치입니다. 가격 정책의 변경은 스위치입니다. 7월 7일까지는 포함되다가, 그 이후에는 종량제 크레딧(metered credits) 방식이 적용되며, 표준 엔터프라이즈(Enterprise) 시트(seats)는 크레딧이 활성화되지 않으면 아무것도 받지 못합니다. 정부 접근 계약(government-access agreement)은 새로운 운영자가 키(key)의 복사본을 보유하고 있는 스위치입니다. 이 모든 것들은 당신이 비용을 지불하고 있는 인지(cognition)와 당신 사이에 놓인 레버(lever)이며, 그 중 어느 것도 당신의 손에 있지 않습니다.

One steady terracotta light glowing among a wide dawn field of smaller blue lights, connected by soft glowing lines

이것은 이 모델들 위에서 실제 시스템을 구축하는 모든 이들에게 중요한 부분입니다. 그러니 제가 할 수 있는 가장 명확한 용어로 말씀드리겠습니다. 신뢰성(Reliability)은 모델의 속성이 아닙니다. 그것은 모델 주변의 아키텍처(architecture)의 속성입니다. Fable 5는 모든 면에서 비범합니다. 중단 사태 전, Stripe는 단 하루 만에 5천만 줄의 Ruby 코드를 이 모델을 통해 마이그레이션했습니다. 역량(Capability)은 결코 문제가 아니었습니다. 문제는 당신이 역량을 호출할 때, 당신이 호출하는 그날에, 당신이 요청한 형태로서 그 역량이 당신에게 응답하느냐 하는 것입니다. 그리고 18일과 두 통의 서신 끝에 내린 정직한 답변은 다음과 같습니다: 때때로, 당신의 동의 없이 변경될 수 있는 조건하에, 그리고 점점 더 제3자가 개입된 상태에서 응답한다는 것입니다.

이는 특정 연구소(lab)를 비난하는 것이 아닙니다. 미국이든 중국이든, 누구의 것이든 관계없이 호스팅되는(hosted) 모든 프런티어 모델(frontier model)에 동일한 렌즈를 들이대면 똑같은 배선(wiring)을 발견하게 될 것입니다. 호스팅되는 모델은 당신이 소유하는 컴포넌트(component)가 아니라, 당신이 질의하는 오라클(oracle)입니다. 당신은 오라클을 기반으로 훌륭한 것들을 만들어낼 수 있습니다. 다만, 그 오라클이 내일 아침에도 변함없이, 자기 자신으로서 응답하며 그 자리에 있을 것이라고 누구에게도 약속할 수는 없다는 점입니다. 그리고 엔터프라이즈 소프트웨어(enterprise software)에서 지킬 수 없는 약속은 '날짜만 정해진 장애(outage)'라고 불립니다.

이번 주 "AI 신뢰성 공학 (AI Reliability Engineering)"이 실제로 의미하는 것

저는 제가 "AI 신뢰성 공학 (AI Reliability Engineering)"이라고 불러온 분야를 구축하고 있으며, 이번 주와 같은 주간들은 이 분야에 이름이 필요한 온전한 이유가 됩니다. 핵심적인 움직임은 단순하고 화려하지 않습니다: 모든 프런티어 모델을 신뢰할 수 없고 취소 가능한 오라클(oracle)로 취급하고, 신뢰성을 당신이 제어할 수 있는 아키텍처(architecture)에 두는 것입니다. 벤더(vendor)에 두는 것이 아닙니다. SLA(Service Level Agreement)에 두는 것도 아닙니다. 모델 카드(model card)에 두는 것도 아닙니다. 당신 자신의 배선(wiring)에 두는 것입니다.

구체적으로, 이는 갑자기 편집증적으로 보이지 않게 되는 몇 가지 지루한 습관들로 나타납니다:

라우팅(Route)하되, 결혼(marry)하지 마십시오. 만약 당신의 시스템이 오직 하나의 특정 호스팅 모델에서만 작동할 수 있다면, 당신은 상태 페이지(status page)에 보도자료를 올릴 준비가 된 단일 장애점(single point of failure)을 구축한 것입니다. 지난 3주 동안 태연하게 넘길 수 있었던 팀들은, 코드 재작성 없이도 스택(stack)을 두 번째 모델—종종 자체 하드웨어에서 실행되는 오픈 웨이트(open-weight) 모델—로 전환할 수 있었던 팀들이었습니다. 라우터(router)는 장애(outage)보다 저렴합니다.

재라우팅(reroute)을 가정하십시오. 이제 분류기(classifier)가 비행 중인 당신의 Fable 5 프롬프트를 Opus 4.8로 전달할 수 있게 되었으므로, "어떤 모델이 이것에 답변했는가?"는 상식 퀴즈가 아니라 운영(production)상의 문제입니다. 만약 당신의 평가(evals), 로깅(logging), 그리고 보증(guarantees)이 항상 당신이 선택한 모델과 대화했다고 가정한다면, 그것들은 이미 틀렸습니다. 로그에 모델을 고정(pin)하십시오. 주력 모델(star)뿐만 아니라 폴백(fallback) 모델에 대해서도 테스트하십시오.

자신이 소유한 바닥을 유지하십시오. 6월 12일에 조금의 흔들림도 없었던 유일한 구성 요소는 이미 로컬 드라이브(local drives)에 저장되어 있던 것들뿐이었습니다. 오픈 웨이트 모델 (Open-weight models) — 현재 중국 연구소들에서 나오고 있는 가장 강력한 모델 중 여러 개를 포함하여 — 은 이제 멈출 수 없는 작업을 위한 타협안이 아닙니다. 당신이 이 모델들을 보유하는 이유는 그것들이 모든 벤치마크 (benchmark)에서 프론티어 (frontier) 모델을 이기기 때문이 아니라, 서신 한 통이 그것들을 꺼버릴 수 없기 때문입니다. 이것은 이데올로기가 아닙니다. 오프라인 백업과 두 번째 결제 제공업체를 유지하는 것과 동일한 규율입니다. 실패의 비용은 치명적이고 준비 비용은 적기 때문에, 당신은 실패에 대비하는 것입니다.

메모리와 계약을 소유하십시오. 모델은 당신의 시스템에서 가장 교체하기 쉬운 부분입니다. 교체할 수 없는 것은 상태 (state), 가드레일 (guardrails), 어서션 (assertions), 그리고 특정 모델의 출력이 배포하기에 충분히 좋은지 결정하는 평가 하네스 (evaluation harness)입니다. 만약 이것들이 당신이 임대하는 벤더 (vendor) 내부에 존재한다면, 당신은 자신의 제품조차 완전히 통제할 수 없음을 증명하는 데 단 18일을 보낸 회사에 당신의 신뢰성을 외주 준 것입니다. 만약 이것들이 당신이 소유한 아키텍처 (architecture) 내에 존재한다면, 불행한 금요일에 그 아래의 오라클 (oracle)을 교체하고도 계속 운영할 수 있습니다.

진심으로 돌아와서 기쁩니다

저는 솔직하게 글을 마치고 싶습니다. 왜냐하면 이 글의 쉬운 버전 — 보세요, 제가 말했죠, 다 불태워 버리세요 — 은 틀렸으며, 저는 그런 글을 쓰는 사람들에게 인내심이 없기 때문입니다.

저는 Fable 5가 돌아와서 진심으로 기쁩니다. 그것은 놀라운 기계이며, 세상은 그것이 작동하고 있는 것이 작동하지 않는 것보다 더 낫습니다. Anthropic은 실제 압박 속에서 올바른 순서로 올바른 일을 해냈으며, 그들이 출시한 안전장치 (safeguards)들은 제가 파악하기로는 진지한 작업의 결과물입니다. 만약 당신이 월요일에 그것을 사용한다면, 당신은 호구가 아니며 위선자도 아닙니다. 저 또한 그들의 모델을 사용할 것입니다.

하지만 저는 안도감이 교훈을 덮어쓰게 두지 않을 것이며, 여러분도 그러해서는 안 됩니다. 전환(switch)은 사라지지 않았습니다. 그것은 두 번째 운영자, 보상(bounty), 계량화된 수수료(metered fee), 그리고 초기 키(early keys)를 가진 정부 파트너를 얻었습니다. 6월에 깨졌던 추상화(abstraction)는 7월에 다시 용접되었습니다 — 그리고 그 용접 부위를 자세히 들여다보면, 여전히 모든 이음매를 볼 수 있습니다.

따라서 지난달에 끝맺었던 동일한 질문이 여전히 유효하며, 전체 사이클이 전개되는 것을 지켜본 지금 그 질문은 더욱 날카로워졌습니다:

당신의 스택(stack) 중 실제로 당신이 소유하고 있는 것은 무엇입니까 — 그리고 무엇이 단 하나의 분류기(classifier), 하나의 서신(letter), 또는 하나의 가격 정책 변경만으로 당신이 아닌 누군가에게 종속될 위기에 처해 있습니까?

다음 서신이 오기 전에 지도를 그리십시오. 다음 서신은 반드시 올 것입니다. 그들 스스로가 우리에게 그렇게 말했습니다 — 그것이 바로 향후 릴리스를 위한 프로토콜(protocol)이 존재하는 이유입니다.

이 글은 At 5:21 PM, the Smartest AI on Earth Went Dark의 후속 글입니다. 만약 당신이 프런티어 모델(frontier models)을 기반으로 프로덕션 시스템(production systems)을 구축한다면, 두 글 모두를 관통하는 아키텍처 패턴 — 모델을 취소 가능한 오라클(revocable oracles)로 취급하고 신뢰성(reliability)을 당신이 소유한 레이어(layer)에 유지하는 것 — 이 바로 제가 말하는 AI Reliability Engineering의 핵심입니다.

Insights

FABLE 5가 돌아왔습니다. 이제 두 명의 주인에게 복종합니다.

요약

핵심 포인트