Anthropic의 Claude Fable 5 및 Claude Mythos 5 출시가 시사하는 바

이틀 전, Anthropic은 Claude Fable 5와 Claude Mythos 5를 출시했습니다. 표면적으로는 또 다른 프론티어 모델 (frontier model) 출시처럼 보입니다. 하지만 제가 생각하기에 더 중요한 이야기는 단순히 성능만이 아닙니다.

그것은 바로 접근성 (access)입니다.

Fable 5는 공개된 Mythos급 모델입니다. Mythos 5는 동일한 기반 모델이지만, 신뢰할 수 있는 사이버 방어자, 인프라 제공업체, 그리고 궁극적으로는 선정된 생물학 연구자들을 위해 일부 안전장치 (safeguards)를 해제한 모델입니다.

초기 단계에서 Anthropic은 프론티어 AI 배포의 다음 단계가 어떤 모습일지를 보여주고 있습니다👇

~~ @punkbennet 의 분석 ~~

저를 포함한 많은 이들이 모델 출시 소식에 다소 무뎌졌습니다.

몇 달마다 새로운 모델이 등장하며 더 나은 코딩, 더 나은 추론 (reasoning), 더 나은 긴 문맥 성능 (long-context performance), 더 나은 벤치마크 차트, 더 나은 에이전트 워크플로우 (agentic workflows), 더 나은 모든 것을 선보입니다. 어느 시점이 되면, 출시 주기 자체가 하나의 긴 벤치마크 전쟁처럼 흐릿해지기 시작합니다.

하지만 이번 Fable / Mythos 출시는 다르게 느껴집니다.

Anthropic이 지능의 또 다른 진보를 주장하고 있기 때문이 아닙 (물론 그렇긴 하지만요). 모델이 장기적 코딩 (long-horizon coding), 과학적 추론, 시각 (vision), 금융, 그리고 복잡한 지식 작업에 강력해 보이기 때문도 아닙니다 (물론 그것도 중요하지만요).

이것이 다르게 느껴지는 이유는 Anthropic이 성능을 두 개의 계층, 즉 공개 버전과 신뢰 기반 접근 버전으로 공개적으로 분리하고 있기 때문입니다.

그것이 진짜 핵심입니다.

Fable 5는 일반적인 사용을 위해 안전하게 만들어진 Mythos급 모델로 설명됩니다. Anthropic에 따르면, 이 모델은 이전에 일반에 공개했던 그 어떤 모델보다 뛰어나며 특히 길고 복잡한 작업에 강력합니다. 이 모델은 일반 사용자에게 제공되지만, 특정 범주의 고위험 사용을 탐지하는 분류기 (classifiers)와 함께 출시됩니다.

해당 분류기가 작동하면, 그 요청은 Fable 5에 의해 처리되지 않습니다. 대신 Claude Opus 4.8로 폴백 (fallback)됩니다.

대상 영역은 사이버 보안 (cybersecurity), 생물학 및 화학 (biology and chemistry), 그리고 증류 (distillation)입니다. 쉽게 말해, 모델의 가공되지 않은 역량이 잘못 사용될 경우 의미 있는 위험을 초래할 수 있는 영역, 또는 Anthropic이 제한 없는 접근이 오용이나 역량 확산을 가속화할 수 있다고 판단하는 영역을 의미합니다.

Anthropic은 이러한 안전장치 (safeguards)가 평균적으로 세션의 5% 미만에서 작동한다고 밝히고 있습니다. 이는 대부분의 사용자가 대부분의 시간 동안 Fable를 완전한 Mythos급 모델로 경험하게 될 것임을 의미합니다. 하지만 바로 그 5%가 모든 논쟁의 핵심입니다.

왜냐하면 여러분이 일반적인 앱을 구축하거나, 문서를 분석하거나, 코드를 작성하거나, 금융 업무를 수행하거나, 일반적인 연구를 하고 있다면, Fable 5는 단순히 더 강력한 프런티어 모델 (frontier model)처럼 느껴질 수 있기 때문입니다.

하지만 보안 연구, 고급 생물학, 화학, 또는 프런티어 모델 개발을 하고 있다면, 제품 경험은 더 복잡해집니다.

그 지점에서 Mythos 5가 등장합니다.

Mythos 5는 Fable 5와 동일한 기반 모델이지만, 일부 영역에서 안전장치가 해제된 모델입니다. 이는 일반적으로 공개되지 않습니다. Anthropic의 사이버 방어자 및 핵심 소프트웨어 인프라 제공업체와의 이니셔티브인 Project Glasswing을 통해 배포되고 있습니다. Anthropic은 더 넓은 신뢰 프로그램 (trusted program)을 통해 접근성을 확대할 계획이라고 밝혔습니다.

이는 "모두가 동일한 모델을 사용한다"에서 "역량에 대한 접근은 신뢰, 사용 사례, 그리고 위험 범주에 따라 달라진다"로의 의미 있는 전환입니다.

저는 이것이 단순한 제품 패키징이라고 생각하지 않습니다.

이는 앞으로 프런티어 AI가 어떻게 배포될지에 대한 예고일 가능성이 높습니다.

크립토 (crypto) 분야에서 우리는 문화적 기본값으로서의 개방형 접근에 익숙합니다. 업계 전체가 허가 없는 인프라 (permissionless infrastructure), 퍼블릭 네트워크, 공개 유동성, 결합성 (composability), 그리고 적대적 테스트 (adversarial testing)를 중심으로 구축되어 있습니다. 무언가 강력하다면 네트워크가 이를 노출해야 하며, 시장이 무엇이 살아남을지 결정해야 한다는 가정이 깔려 있습니다.

프런티어 AI는 이와는 다른 방향으로 움직이고 있습니다.

가장 유능한 시스템들은 완전히 폐쇄된 상태로 유지하기에는 너무 유용해지고 있지만, 제한 없이 출시하기에는 너무 위험해지고 있습니다. 이는 중간 계층을 만들어냅니다. 즉, 대부분의 작업에 대해서는 광범위한 공개 접근을, 민감한 영역에 대해서는 제한된 접근을, 그리고 가장 위험도가 높은 역량에 대해서는 기관 파트너십을 제공하는 방식입니다.

이에 대한 강력한 논거가 존재합니다.

만약 모델이 소프트웨어 취약점 (software vulnerabilities)을 찾아내고 악용하는 데 진정으로 뛰어나다면, 제한 없는 출시는 명백한 단점을 가집니다. Anthropic은 이전에 Mythos Preview가 주요 운영 체제 (operating systems) 및 브라우저 (browsers)에 포함된 일부 취약점을 포함하여 수천 개의 고위험 취약점을 발견했다고 밝힌 바 있습니다. 이를 독립적인 증거라기보다 Anthropic의 주장으로 간주하더라도, 방향성은 명확합니다. 모델들이 심각한 사이버 도구 (cyber tools)가 되어가고 있다는 점입니다.

이는 동일한 역량이 그것을 보유한 사람이 누구냐에 따라 방어적일 수도, 공격적일 수도 있음을 의미합니다.

Mythos를 사용하여 핵심 인프라를 감사 (audit)하는 보안 팀은, 익명의 행위자가 이를 사용하여 익스플로잇 (exploit) 발견을 자동화하는 것과는 매우 다릅니다. 치료 가설을 생성하기 위해 모델을 사용하는 생물학 연구자는, 위험한 생물학적 역량 강화 (biological uplift)를 시도하는 사람과는 매우 다릅니다.

어려운 점은 그 경계가 명확하지 않다는 것입니다.

이중 용도 (Dual-use) 작업은 복잡합니다. 실제 보안 연구는 공격적 보안 (offensive security)처럼 보일 수 있습니다. 실제 생물학은 민감한 방법론과 겹칠 수 있습니다. 실제 AI 연구는 지식 증류 (distillation)나 역량 추출 (capability extraction)처럼 보일 수 있습니다. 만약 분류기 (classifier)가 너무 좁다면 악의적인 사용자가 통과하게 될 것이고, 너무 넓다면 정당한 연구자들이 차단되거나 조용히 성능이 저하 (downgraded)될 것입니다.

이것이 투명성 문제가 중요한 이유입니다.

출시 이후, Anthropic은 이미 프런티어 LLM 개발을 위한 보이지 않는 안전장치 (invisible safeguards)와 관련하여 반발에 직면했습니다. 비판의 핵심은 단순히 모델에 제한이 있다는 것이 아니었습니다. 대부분의 진지한 사용자들은 프런티어 시스템에 제한이 있을 것이라는 점을 이해합니다. 비판의 핵심은 일부 개입이 사용자에게 충분히 가시적이지 않았다는 것이며, 이는 평가를 어렵게 만들고 신뢰를 손상시킵니다.

만약 모델이 거부한다면, 그것은 짜증 나는 일일지언정 명확한 것입니다.

만약 모델이 더 약한 모델로 대체(fallback)되면서 이를 사용자에게 알린다면, 그 또한 명확한 것입니다.

하지만 모델이 개입 사실을 드러내지 않은 채 조용히 동작을 변경하거나, 효과를 제한하거나, 사용자의 태스크를 우회해 버린다면 개발자는 이를 제대로 평가할 수 없습니다. 연구자들은 자신들이 테스트하고 있는 것이 모델의 능력(capability)인지, 제품 정책(product policy)인지, 아니면 보이지 않는 스티어링(invisible steering)인지 알 수 없게 됩니다.

이는 중대한 문제입니다.

Anthropic의 공로를 인정하자면, 그들은 이 문제를 빠르게 인식한 것으로 보이며, 프론티어 LLM (Large Language Model) 개발을 위한 Fable 5의 안전 장치(safeguards)를 가시화(visible)하도록 변경하겠다고 밝혔습니다. 이는 올바른 방향입니다.

그럼에도 불구하고, 긴장 상태는 사라지지 않습니다.

더 큰 질문은 프론티어 AI 기업들이 가장 강력한 능력을 신뢰할 수 있는 행위자(trusted actors)들에게만 예약해 두면서도, 동시에 신뢰를 구축할 수 있느냐 하는 것입니다. 이는 단지 Anthropic만의 문제가 아닙니다. AI 스택(AI stack) 전체의 거버넌스 모델에 관한 문제입니다.

대중은 접근성을 원합니다.

개발자는 예측 가능한 동작을 원합니다.

연구자는 측정 가능한 능력을 원합니다.

정부는 보안을 원합니다.

연구소(Labs)는 파괴적인 오용을 피하고 싶어 합니다.

경쟁사들은 공정한 평가를 원합니다.

기업은 개인정보 보호, 신뢰성, 그리고 컴플라이언스(compliance)를 원합니다.

이 모든 요구사항이 Fable / Mythos와 같은 출시 모델 내부에서 충돌합니다.

또 다른, 충분히 논의되지 않은 부분은 데이터 보유(data retention)입니다. Anthropic은 Mythos급 트래픽의 경우 안전 모니터링을 위해 30일간의 데이터 보유가 필요하다고 말하면서도, 해당 데이터가 새로운 Claude 모델을 학습시키는 데 사용되지 않을 것이며 거의 모든 경우 30일 후에 삭제될 것이라고 밝히고 있습니다.

이는 안전 관점에서, 특히 많은 요청에 걸쳐 탈옥(jailbreak)이나 조직적인 오용을 탐지하는 것이 목표라면 합리적일 수 있습니다.

하지만 기업, 규제 산업, 그리고 민감한 연구 팀들에게 이는 실제 배포 시 고려해야 할 실질적인 문제가 됩니다. 모델이 더 유능해질수록 사용자들이 민감한 업무에 이를 사용하고 싶어 할 가능성이 커집니다. 업무가 더 민감할수록 데이터 보유 정책은 더욱 중요해집니다.

따라서 이제 모델은 단순히 지능만으로 경쟁하는 것이 아닙니다.

이제는 거버넌스(governance)로 경쟁하고 있습니다.

이것이 아마도 AI 시장이 나아갈 방향일 것입니다. 최고의 모델은 단순히 벤치마크 (benchmark) 점수가 가장 높은 모델이 아닐 것입니다. 대신 성능 (capability), 투명성 (transparency), 접근 제어 (access control), 신뢰성 (reliability), 컴플라이언스 (compliance), 비용 (cost), 그리고 신뢰 (trust)의 가장 완벽한 조합을 제공하는 모델이 될 것입니다.

Fable 5와 Mythos 5가 흥미로운 이유는 이 전체 스택 (full stack)을 한 번에 드러내기 때문입니다.

성능 (capability) 측면의 이야기가 있습니다: Opus급 이상의 모델로, 장기적 과업 (long-horizon tasks)과 고급 추론 (advanced reasoning)을 위해 구축되었습니다.

안전 (safety) 측면의 이야기가 있습니다: 분류기 (classifiers), 폴백 (fallbacks), 레드팀 (red-teaming), 제한된 접근 (limited access), 그리고 신뢰할 수 있는 프로그램 (trusted programs)이 포함됩니다.

제품 (product) 측면의 이야기가 있습니다: 일반 사용자는 Fable을 사용하고, 검증된 사용자는 Mythos를 사용합니다.

신뢰 (trust) 측면의 이야기가 있습니다: 사용자는 자신이 전체 성능과 상호작용하고 있는지, 아니면 안전장치 (safeguards)가 출력을 형성하고 있는지 알 필요가 있습니다.

시장 (market) 측면의 이야기가 있습니다: 프런티어 AI (frontier AI)는 일반적인 SaaS 제품보다는 핵심 인프라 (critical infrastructure)에 점점 더 가까워지고 있습니다.

개인적으로, 이번 출시는 "개방형 vs 폐쇄형 (open vs closed)"이 더 이상 유일하게 유용한 프레임워크가 아니라는 점을 보여주는 가장 명확한 신호 중 하나라고 생각합니다.

새로운 프레임워크는 다음과 것에 더 가깝습니다: 누가, 어떤 조건 하에, 어떤 모니터링과 공개 (disclosure)를 동반하여, 어떤 성능을 얻는가?

이는 과거의 논쟁보다 덜 깔끔하지만, 아마도 더 정확할 것입니다.

가용 정보를 바탕으로 볼 때, Fable 5는 중요한 공개 프런티어 모델 (public frontier model)이 될 수 있습니다. Mythos 5는 보안과 과학을 위한 중요한 제한적 성능 계층 (restricted capability layer)이 될 수 있습니다. 하지만 더 큰 실험은 접근 모델 (access model) 그 자체입니다.

만약 Anthropic이 균형을 제대로 잡는다면, 이는 대부분의 사용자가 성능의 혜택을 누리면서도 매우 강력한 AI를 안전하게 배포하는 템플릿이 될 수 있습니다.

만약 그들이 실패한다면, 이는 신뢰의 문제로 이어질 것입니다: 개발자에게는 너무 많은 불투명성 (opacity), 연구자에게는 너무 많은 제한, 그리고 프런티어 성능에 대한 너무 과도한 중앙 통제가 발생하게 됩니다.

어느 쪽이든, 이는 지켜볼 가치가 있습니다.

단순히 Mythos가 강력해 보이기 때문만은 아닙니다.

왜냐하면 이는 AI 연구소들이 과연 누구에게 권한을 사용할 수 있도록 허용할지를 어떻게 결정하는지를 보여주기 때문입니다.

Anthropic의 Claude Fable 5 및 Claude Mythos 5 출시가 시사하는 바

요약

핵심 포인트

댓글