신뢰성은 선택하는 벤더가 아니라, 당신이 소유하는 아키텍처입니다

2026년 6월의 같은 2주 동안 세 가지 사건이 발생했습니다. 기술 언론은 이를 세 개의 서로 다른 폴더에 분류했습니다. 하지만 이것은 하나의 이야기이며, 이 이야기에는 업계 대부분이 거꾸로 이해하고 있는 반전이 담겨 있습니다.

첫째: 미 동부 표준시(ET) 6월 12일 오후 5시 21분, 미국 상무부는 Anthropic에 Claude Fable 5 및 Mythos 5 — 공공 API로 출시된 모델 중 가장 뛰어난 성능을 가진 모델들 — 에 대해 지구상의 모든 외국인에 대한 사용 중단을 명령했습니다. REST 엔드포인트에는 여권 스캐너가 없기 때문에, 몇 시간 이내에 이 모델들은 전 세계의 _모든 사람_에게 먹통이 되었습니다. (저는 그날 밤의 개인적인 기록을 여기에 작성했습니다: 오후 5시 21분, 지구상에서 가장 똑똑한 AI가 꺼졌다.)

둘째: 6월 14일, Satya Nadella는 AI를 기업의 "토큰 자본 (token capital)" — 인적 자본(human capital)과 함께 복리로 쌓여가는, 기업이 구축하고 소유하는 AI 역량 — 이라고 부르는 에세이를 발표했습니다. 그의 문구는 다음과 같습니다: "당신은 결코 당신의 학습을 외주 줄 수 없습니다."

셋째: 6월 13일에 드러난 Ramp의 결제 데이터에 따르면, **Anthropic이 미국 비즈니스 도입률에서 OpenAI를 앞질렀습니다 — 34.4% 대 32.3%**로, 현재 모든 기업의 첫 AI 지출 중 약 73%가 Anthropic으로 향하고 있습니다. 분석가들이 계속해서 언급하는 이유는 벤치마크 점수가 아닙니다. 바로 **신뢰성 (reliability)**입니다.

이 세 가지를 나란히 놓고 보면 하나의 사실이 도출됩니다.

역량은 이제 취소 가능한 인프라입니다

기업들이 방금 신뢰성의 왕좌에 앉힌 제공업체는, 정부가 6월 12일에 플래그십 모델의 사용을 중단시킨 _바로 그 업체_이며, 관련 없는 장애로 인해 6월 2일에 API가 전 세계적으로 중단되었던 업체이기도 합니다. Microsoft 365 Copilot은 6월 11일에 몇 시간 동안, 그리고 6월 15일경에 다시 중단되었습니다. 이 사건들 중 그 어떤 것도 패치로 해결할 수 있는 버그가 아니었습니다. 하나는 행정 명령이었고, 하나는 인증(auth) 배포 오류였습니다. 이 모든 것들은 실제 운영 업무를 중단시켰습니다.

여기 불편한 재분류가 있습니다: 당신의 스택에서 가장 유능한 지능은 더 이상 고정된 입력값이 아닙니다. 그것은 당신이 아닌 제3자가 — 지시(directive)에 의해서든, 장애(outage)에 의해서든, 가격 변경(pricing change)에 의해서든 — 당신이 통제할 수 없는 시점에 취소할 수 있는, 중앙 집중식으로 관리되는 서비스입니다.

이것은 나델라(Nadella)의 말을 완벽하게 재구성합니다. AI가 이제 자본(capital)이라는 그의 말은 맞습니다. 그는 단지 결론에 조금 일찍 도달했을 뿐입니다: 스스로 실행할 수 없는 토큰 자본(token capital)은 자본이 아닙니다. 그것은 임대(lease)이며, 6월 12일은 그 임대 계약에 몇 시간 단위로 작동하는 계약 해지 조항(kill clause)이 있음을 증명했습니다.

시장 전체가 저지른 범주 오류 (Category Error)

이제 시장이 보지 못하는 부분입니다. 시장은 방금 반대 방향으로 투표했기 때문입니다.

기업들은 신뢰성(reliability)을 제1의 구매 기준으로 삼았습니다. 좋습니다. 그러고 나서 그들은 **벤더를 교체(switching vendors)**함으로써 이를 충족하려 했습니다. 즉, 신뢰성이 낮은 제공업체에서 더 신뢰할 수 있는 제공업체로 지출을 옮긴 것입니다.

이것은 범주 오류(category error)입니다.

보안(security)이 그러하듯, 신뢰성 또한 제공업체로부터 구매할 수 있는 속성이 아니었습니다. Ramp 보고서에서 "가장 신뢰할 수 있는" 벤더조차 수출 통제 서신(export-control letter) 한 통이면 암흑 속으로 사라질 수 있습니다. 단일 장애점(single point of failure)을 해결하기 위해 더 신뢰할 수 있는 단일 공급업체를 선택하는 것은, 그저 더 "나은" 단일 장애점을 갖게 될 뿐입니다. 구매자들은 질문은 정확히 이해했지만, 답은 정반대로 내놓았습니다.

분산 시스템(distributed system)의 신뢰성은 결코 어느 한 구성 요소에 머물지 않습니다. 그것은 구성 요소들 사이의 연결(connections) — 폴백(fallbacks), 서킷 브레이커(circuit breakers), 우아한 성능 저하(graceful degradation), 그리고 단일 노드를 잃더라도 서비스를 계속 유지할 수 있는 능력 — 에 존재합니다. 사이트 신뢰성 공학(Site reliability engineering, SRE)은 20년 전 서버를 통해 이를 배웠습니다. 우리는 지금 그보다 한 단계 위에서, 프런티어 모델(frontier models)이 실패하는 구성 요소가 된 상황을 통해 이를 다시 배우고 있습니다. (누적된 상태 하에서의 신뢰성이라는 더 깊은 실패 모드에 대해서는 The Pass^k Wall에서 다루었습니다.)

The same capability on a single fraying thread versus held by a redundant mesh — reliability lives in the connections, not the component.

신뢰성은 당신이 선택하는 벤더가 아닙니다. 그것은 당신이 소유하는 아키텍처입니다.

프런티어 모델(Frontier model)을 신뢰할 수 없는 오라클(Untrusted oracle)로 취급하십시오

설계상의 핵심 전환은 프런티어 모델(Frontier model)을 의존성(Dependency)으로 취급하는 것을 멈추고, 6월 12일의 사건이 증명했듯 그것을 **신뢰할 수 없는 오라클 (Untrusted oracle)**로 취급하기 시작하는 것입니다. 매우 뛰어나고 모든 토큰(Token)의 가치를 지니지만, 단 한 번의 메모만으로 사라질 수 있는 존재입니다. 모든 핵심 루프(Critical loop)를 설계할 때, 모델이 사라질 수 있다는 가정하에 구축하십시오:

소유하거나 이식 가능한 추론 (Owned or portable inference) — 폴백 제공자(Fallback provider), 이전 세대 모델, 또는 어떤 지시로도 끌 수 없는 로컬 오픈 웨이트(Open-weight) 모델을 확보하십시오.
우아한 성능 저하 (Graceful degradation) — 프런티어 모델이 중단되더라도 워크플로우는 느려지거나 단순해질 뿐, 멈추지 않아야 합니다.
이식 가능한 컨텍스트 (Portable context) — 에이전트(Agent)가 축적한

장애 조치(Failover)를 소유하세요. BerriAI/litellm (~50.8k ⭐)은 셀프 호스팅(self-hostable)이 가능한 게이트웨이입니다. 100개 이상의 제공업체(provider) 앞에 하나의 인터페이스를 두며, 사용자가 정의한 폴백 체인(fallback chain)을 제공합니다. 기본 모델이 500 에러를 발생시키거나 지연 시간 예산(latency budget)을 초과하면, 요청은 자동으로 다음 단계로 라우팅됩니다. 당신이 직접 운영하므로, 그 누구도 이를 중단시킬 수 없습니다.

콜드 스페어(Cold spare)를 소유하세요. vllm-project/vllm (~83k ⭐)은 OpenAI 호환 엔드포인트를 통해 사용자의 자체 하드웨어에서 오픈 웨이트(open-weight) 모델을 서비스합니다. 이는 체인의 최하단에 위치하며, 모든 호스팅 제공업체가 중단되었을 때 서비스가 '성능 저하(degraded)' 상태로 유지될지 아니면 '다운(down)'될지를 결정하는 차이를 만듭니다. (이러한 계층 간 라우팅의 경제성에 대해서는 Fable 5 번레이트(burn-rate) 관련 글을 참조하세요.)

감사 추적(Audit trail)을 소유하세요. langfuse/langfuse (~29k ⭐, MIT, 셀프 호스팅 가능)는 트레이스(traces), 세션(sessions), 스코어(scores)를 당신이 제어하는 인프라에 보관합니다. 따라서 기록은 서비스가 중단될 수 있는 벤더(vendor)와 상관없이 살아남습니다.

하지만 이 스택이 만들어내는 문제가 하나 있으며, 대부분의 팀은 이를 테스트하지 않습니다: 프런티어 모델(frontier model)에서 폴백(fallback) 모델로 장애 조치(failover)가 발생했을 때, 에이전트(Agent)가 여전히 동일하게 동작하는가? 조용히 단 하나의 결정이라도 바꾸어 버리는 더 저렴하거나 오래된 모델은 안전망이 아닙니다. 그것은 숨겨진 두 번째 실패입니다.

그것이 바로 Qualixar가 해결하고자 하는 격차입니다.

**AgentAssert**는 "에이전트가 동작한다"는 것을 수치화된 계약(contract)으로 변환합니다. 에이전트가 해야 할 일과 하지 말아야 할 일을 YAML 명세(spec)로 작성하면, 어떤 모델이 답변했는지와 관계없이 런타임(runtime)에 강제됩니다. 따라서 로컬 모델로의 장애 조치(failover)가 발생하더라도 동일한 행동 계약을 준수하게 됩니다. 또한 드리프트 탐지(drift detection, Jensen-Shannon divergence)와 확률적 (p, δ, k)-만족 경계(probabilistic (p, δ, k)-satisfaction bounds) 기능을 추가합니다. (arXiv:2602.22302)

**AgentAssay**는 페일오버 (failover) 과정을 감사 가능하게(auditable) 만듭니다. 모든 모델 교체를 테스트하는 것은 보통 너무 비용이 많이 들어서 무시되기 일쑤입니다. 단 하나의 회귀 (regression)를 확인하기 위해 수백 번의 시행착오를 거쳐야 하기 때문입니다. AgentAssay는 행동 지문 (behavioral fingerprinting, 에이전트가 무엇을 '말했는지'가 아니라 무엇을 '했는지')과 적응형 예산 할당 (adaptive budget allocation)을 사용하여, 토큰 비용의 극히 일부만으로 동일한 통계적 신뢰도를 제공합니다. 제공자 (provider)를 추가하거나 교체할 때마다, 행동이 유지되었는지 여부를 저렴한 비용으로 알려줍니다. (arXiv:2603.02601)

페일오버를 직접 소유하십시오. 어떤 모델이 응답하든 계약 (contract)을 강제하십시오. 교체가 아무것도 망가뜨리지 않았음을 증명하십시오. 그것이 바로 아키텍처입니다.

다음 제공자가 작동을 멈추기 전에 해야 할 세 가지

이번 주에 가장 중요한 에이전트 뒤에 하나의 폴백 (fallback) 제공자를 배치하십시오. LiteLLM을 구축하고, 두 개의 링크 체인을 정의한 뒤, 스테이징 (staging) 환경에서 강제로 장애를 발생시켜 라우팅되는 과정을 지켜보십시오. 에이전트가 중단 없이 시뮬레이션된 장애를 통과하는 첫 순간, "신뢰할 수 없는 신탁 (untrusted oracle)"은 더 이상 슬로건에 그치지 않게 됩니다.
오픈 웨이트 (open-weight) 모델 하나를 콜드 스페어 (cold spare)로 구축하십시오. 주 모델일 필요는 없습니다. 반드시 "존재"해야 합니다. 그래야 "모든 호스팅 제공자가 작동 불능 상태"인 상황이 완전한 장애가 아닌 성능 저하 모드 (degraded mode)가 됩니다.
어떤 폴백을 신뢰하기 전에 행동 회귀 (behavioral regression) 테스트를 실행하십시오. 에이전트를 AgentAssert 계약으로 감싸고, 기본 모델에서 AgentAssay로 지문을 채취한 뒤, 폴백 모델에서 다시 실행하십시오. 만약 지문이 일치하지 않는다면, 당신의 안전망이 조용히 의사결정을 바꾸고 있었다는 뜻입니다. 이는 다음 지시 사항을 수행할 때보다는 차라리 화요일에 발견하는 것이 낫습니다.

자금은 마치 이 의존성이 영구적이고 값을 매길 수 없는 것처럼 움직이고 있습니다. Anthropic은 1조 달러에 가까운 기업 가치로 4분기 IPO를 향해 달려가고 있으며, OpenAI 역시 같은 시기를 목표로 경주하고 있고, 그 밑바탕에는 Amazon의 커스텀 실리콘 (custom silicon)이 200억 달러 이상의 연간 매출액 (run-rate)을 넘어섰습니다. (3개월 전 Elon Musk는 Anthropic을 악하다고 불렀으나, 지난 화요일 그는 사실상 그들의 집주인이 되었습니다 — 컴퓨팅 (compute)이 해자 (moat)라면, 모델 (models)은 세입자입니다.) 그리고 6월 16일, xAI는 의존성의 궁극적인 대가를 치렀습니다. SpaceX가 Cursor를 완전히 인수하기 위해 600억 달러 규모의 전액 주식 (all-stock) 거래를 발표한 것입니다. 이는 Anthropic이 바로 그 도구를 통해 xAI 직원들이 Claude를 사용하는 것을 차단한 이후의 일이었습니다. 프런티어 제공업체 (frontier provider)가 안전이 아닌 시장 지위를 위해 경쟁사의 접근 권한을 취소했고, 경쟁사의 답변은 600억 달러 규모의 인수였습니다. 현재의 기업 가치 산정에는 취소 위험 (revocation risk)이 전혀 반영되어 있지 않습니다. 6월 12일과 6월 16일은 그 위험에 두 가지 숫자를 부여했습니다: 몇 시간 만에 취소될 수 있는 위험, 그리고 그 위험에서 벗어나기 위해 필요한 600억 달러입니다.

"모든 것은 항상 실패합니다." — Werner Vogels, Amazon CTO

그는 클라우드 서버에 대해 그렇게 말했고, 그것이 현대의 신뢰성 공학 (reliability engineering)의 기초가 되었습니다. 프런티어 모델 (frontier models)은 이제 인프라 (infrastructure)입니다. 그가 설명했던 그 어떤 서버보다 더 유능하고, 더 중심적이며, 더 취소되기 쉽습니다. 그의 문장을 내재화한 팀은 필요해지기 전에 페일오버 (failover)를 구축할 것입니다. 나머지 팀들은 업계가 항상 그래왔던 방식으로 배우게 될 것입니다: 그들이 선택하지 않은 어느 날 오후 5시 21분에 말입니다.

실험실 밖에서

나는 당신이 통제할 수 없는 지능에 백업 (fallback) 없이 절대 의존해서는 안 된다고 주장하며 매주 시간을 보냅니다. 이번 주에는 그 생각의 반대편에 있는 결과물도 하나 공개했습니다. 제 개인 채널에 올린 짧은 영화로, 당신이 결코 아웃소싱 (outsource)할 수 없는 종류의 지능에 관한 이야기입니다. 제목은 The Reaching이며, AI가 결코 배우지 못할 것에 관한 내용입니다. Nadella의 대사 — "당신의 학습을 결코 떠넘길 수 없습니다" — 는 기업 전략에 관한 문장입니다. 이 영화는 삶에 관한, 동일한 문장입니다.

→ 🎬 The Reaching 시청하기 · 📝 에세이 읽기