Claude Fable 5 출시: 모두를 위한 Mythos급 성능, 그리고 2배의 가격만큼 가치가 있을까

2주 전 Claude Opus 4.8을 리뷰했을 때, 저는 발표 내용 중 한 문장을 가장 흥미로운 지점으로 꼽았습니다. Anthropic은 향후 몇 주 내에 Mythos급 모델이 모든 고객에게 제공될 것이며, 이는 성능(capability)의 문제가 아니라 안전(safety) 작업에 따라 제한될 것이라고 밝혔습니다. 그것이 결정적인 신호였습니다. 이 연구소들이 구축할 수 있는 능력과 그들이 출시하기로 선택한 능력 사이의 간극이 좁혀지고 있었던 것입니다.

어제인 6월 9일, 마침내 결과가 나왔습니다. Claude Fable 5가 출시되었으며, 이는 Mythos급 모델입니다. 출시 방식은 평소와 같았습니다. 대기 명단도, 단계적 출시도 없었습니다. Claude API, Bedrock, GitHub Copilot, 그리고 소비자용 플랜에 같은 날 출시되었으며, 모델 ID claude-fable-5를 설정(config)에 바로 적용할 수 있습니다.

그래서 저는 매 출시 때마다 하는 것처럼 하루를 보냈습니다. 가장 어려운 실제 작업들을 던져보고, 발표 내용과 제3자 벤치마크(benchmarks)를 파헤치며, 출시 당일의 화려함 속에서 진정으로 변화한 것이 무엇인지 구분하려고 노력했습니다. 이번 모델은 지난 몇 번의 출시와는 다릅니다. 벤치마크 점수가 몇 점 올랐기 때문이 아니라, Claude Fable 5가 Anthropic이 이전에는 출시하기에 너무 강력하다고 판단했던 등급의 모델을 대중에게 처음으로 건네준 사례이기 때문입니다.

제가 발견한 내용은 다음과 같습니다.

Fable 5와 Mythos 5의 실체

명칭이 많은 역할을 하고 있으므로, 천천히 살펴볼 가치가 있습니다. 이번 출시에는 두 가지 모델이 있지만, 사실 동일한 모델입니다.

Claude Fable 5는 안전 분류기(safety classifiers)가 활성화된 Mythos급 모델입니다. 이것이 바로 여러분과 제가 사용하는 모델입니다. 현재 API, 클라우드 제공업체, 그리고 구독 플랜을 통해 바로 사용할 수 있습니다.

Claude Mythos 5는 특정 안전 장치(safeguards)가 제거된 동일한 기반 모델입니다. 이는 일반적으로 사용할 수 없습니다. 현재는 Anthropic이 Project Glasswing라고 부르는 프로그램을 통해 사이버 보안 전문가와 인프라 제공업체로 제한되어 있으며, 다음으로는 생물학 연구자들을 위한 신뢰 기반 액세스 프로그램(trusted-access program)이 계획되어 있습니다.

저는 Claude Mythos가 폐쇄형 연구 프리뷰(research preview)였던 시절에 대해 글을 쓴 적이 있습니다. 당시 그 모델은 코딩 및 사이버 벤치마크(cyber benchmarks)에서 터무니없이 높은 점수를 기록했으나, Anthropic이 명시적으로 출시하지 않기로 결정했던 모델이었습니다. Fable 5는 그 글이 제기했던 명백한 질문, 즉 '그들이 마침내 충분히 안전하다고 판단하여 출시하기로 결정하면 어떤 일이 벌어질까?'에 대한 해답입니다. 그 해답은, 그들이 일련의 분류기(classifiers)를 장착하여 출시하되, 필터링되지 않은 버전(unfiltered version)은 심사 과정(vetting process) 뒤에 남겨두고, 이 두 부분을 서로 다른 이름으로 부르는 것입니다.

이러한 분리는 보기보다 더 중요하며, 이에 대해서는 나중에 다시 다루겠습니다. 하지만 먼저, 모두가 실제로 알고 싶어 하는 부분부터 살펴보겠습니다.

중요한 벤치마크 (The Benchmarks That Matter)

Anthropic은 Fable 5가 자신들이 테스트한 거의 모든 역량 벤치마크(capability benchmark)에서 최첨단(state-of-the-art) 성능을 보여준다고 주장하며, 이번에는 드물게 제3자 수치들이 마케팅 내용을 완화하기는커녕 뒷받침해주고 있습니다. 성능 향상이 실질적이긴 했으나 점진적이었던 Opus 4.8 출시 당시의 패턴은 여기에서 적용되지 않습니다. 이것은 단계적 변화(step changes)입니다.

알아둘 가치가 있는 수치들은 다음과 같습니다.

벤치마크 (Benchmark)	측정 항목	Fable 5	비교 대상
SWE-Bench Pro	실제 소프트웨어 엔지니어링 (Real-world software engineering)	80.3%	Opus 4.8: 69.2%, GPT-5.5: 58.6%
...

저를 멈춰 세운 것은 바로 SWE-Bench Pro의 도약이었습니다. 69%에서 80%로 올라가는 것이 별것 아닌 것처럼 들릴 수 있지만, 그 벤치마크가 무엇인지 기억한다면 이야기가 달라집니다. 그것은 연습용 문제(toy problems)가 아닙니다. 실제 저장소(repositories)에서 가져온 실제 엔지니어링 작업이며, 모델이 코드베이스(codebase)를 이해하고, 여러 파일에 걸친 변경 사항을 적용하면서도 다른 부분을 망가뜨리지 않아야 하는 종류의 작업입니다. 그 정도 수준에서의 11포인트 상승은 대부분의 것을 맞히는 모델과 어려운 것까지 맞히는 모델 사이의 차이입니다.

FrontierCode는 또 다른 놀라운 지점입니다. 코드가 단순히 실행되는지를 넘어, 프로덕션 표준(production standards)을 충족하는지를 테스트하도록 설계된 벤치마크에서 Opus 4.8의 점수를 두 배 이상 높인 결과는 제가 실제 사용 시 느꼈던 점과 일치합니다. 출력된 결과물은 생성된 코드라기보다 세심한 엔지니어가 작성한 코드에 더 가깝게 읽힙니다.

ExploitBench 수치는 필터링되지 않은 형제 모델인 Mythos 5의 것입니다. 그렇기에 Opus 4.8보다 거의 두 배나 높은 것입니다. 그 격차야말로 필터링되지 않은 버전이 Project Glasswing 뒤에 잠겨 있는 온전한 이유입니다. 공격적 보안(offensive security) 작업에서 78%의 점수를 기록하는 모델은 연구실을 긴장하게 만드는 바로 그 이중 용도(dual-use) 역량을 갖추고 있으며, 안전(safety) 섹션에 도달했을 때 이 수치를 반드시 염두에 두어야 합니다.

SWE-Bench Pro에서 80%를 기록한다는 것이 실제로는 어떤 느낌인가

벤치마크는 모델이 능력이 있다는 것을 알려줍니다. 하지만 당신이 직접 운전할 때 그 능력이 어떤 느낌인지는 알려주지 않습니다. 그래서 저는 제가 실제로 하는 업무를 맡겨보았습니다.

첫 번째 테스트는 제가 계속 미뤄왔던 리팩터링(refactor) 작업이었습니다. 제 프로젝트 중 하나에 있는 엉킨 서비스 레이어(service layer)였는데, 약 12개의 파일로 구성되어 있었고, 상태 관리(state management)가 1년 동안 유기적이고 나쁜 방식으로 성장해 온 상태였습니다. 에이전트 기반 코딩 (agentic coding) 루프가 보통 길을 잃기 쉬운 종류의 작업입니다. 에이전트 하나가 파일 하나씩 처리하면서, 컨텍스트(context)가 누락될 때마다 제가 몇 개의 파일마다 컨벤션(convention)을 다시 설명해야 하는 상황 말입니다.

Fable 5는 질적으로 다른 방식으로 이를 처리했습니다. 서비스 레이어 전체를 읽고, 단순히 표면적인 증상만이 아니라 실제 구조적인 문제를 식별했으며, 제가 직접 작성했더라도 만족했을 리팩터링을 제안했습니다. 모든 선택이 제 의도와 일치한 것은 아니었습니다. 하지만 그 추론(reasoning)이 충분히 타당했기에, 의견 차이가 발생하더라도 그것은 정답 여부가 아닌 취향의 문제였습니다.

Anthropic이 가장 강력하게 내세우는 주장은 지속적인 추론(sustained reasoning)입니다. 발표문에 따르면 작업이 더 길고 복잡할수록 Fable 5의 격차는 더 커집니다. 초기 테스터들은 1년 전에는 수백 번의 프롬프트(prompt)가 필요했던 앱들이 이제는 원샷(one-shot)으로 해결된다고 보고했습니다. 저는 이 '수백 번의 프롬프트'라는 주장을 완전히 검증할 수는 없지만, 그 방향성은 맞다고 봅니다. 이 모델은 제가 사용해 본 그 어떤 것보다 긴 작업 과정에서도 집중력을 더 잘 유지합니다. 이전의 모든 모델들이 결국 그러했듯이, 마이그레이션(migration) 도중에 흐름을 놓치지 않습니다.

대표적인 고객 사례는 Stripe입니다. Stripe는 Fable 5가 수개월의 엔지니어링 작업을 단 며칠로 압축했으며, 통상적으로 팀이 두 달간 매달려야 하는 5,000만 줄 규모의 Ruby 코드베이스 마이그레이션을 단 하루 만에 완료했다고 밝혔습니다. 저는 5,000만 줄 규모의 마이그레이션을 테스트할 수는 없습니다. 하지만 제가 컨텍스트(context)를 일일이 관리하지 않아도 스스로 여러 파일을 리팩터링(refactor)하는 과정을 지켜본 결과, 6개월 전이었다면 코웃음을 쳤을 법한 이 주장의 형태가 이제는 그럴듯하게 느껴집니다.

이 지점에서 Opus 4.8의 자기 수정 작업(self-correction work from Opus 4.8)이 복리로 작용합니다. Fable 5는 정직성(honesty)의 개선 사항을 물려받았으며, 이를 원천적인 능력과 결합했습니다. 모델은 자신의 실수를 더 신뢰성 있게 잡아내며, 애초에 저지르는 실수 자체도 더 적습니다.

가격이 두 배로 뛰었고, 이는 계산법을 바꿉니다

여기가 여러분의 사용 방식을 재편하게 될 부분입니다. Claude Fable 5의 비용은 입력 토큰(input tokens) 100만 개당 10달러, 출력 토큰(output tokens) 100만 개당 50달러입니다. 이는 5달러와 25달러 수준인 Opus 4.8의 두 배입니다.

지난 여러 번의 릴리스(release) 동안의 흐름은 가격은 유지되면서 성능은 올라가는 것이었습니다. 저는 Opus 4.8 리뷰에서 이 점을 특별히 강조했는데, 가격 동결은 AI 기능 구축(building AI features)의 경제성이 개선되는 과정 뒤에 숨겨진 조용한 엔진이기 때문입니다. Fable 5는 그 패턴을 깨뜨립니다. 모델을 구동하는 비용이 실제로 더 비싸졌기 때문에 가격이 인상된 것이며, Anthropic은 이를 숨기지 않고 있습니다.

공정하게 말하자면, 그들은 이를 할인으로 프레임화하고 있습니다. Fable 5는 기존 Mythos Preview 가격의 절반도 되지 않으므로, Mythos 티어와 비교하면 이는 가격 인하입니다. 하지만 여러분이 현재 Opus 4.8에서 지불하고 있는 실제 청구서와 비교하면, 가격이 두 배로 뛴 셈입니다.

따라서 이제 계산법은 더 이상 "모든 것에 가장 좋은 모델을 사용한다"가 아닙니다. 다시 라우팅 (Routing)의 문제로 돌아왔습니다.

모델	입력 (1M당)	출력 (1M당)	용도
Opus 4.8	$5	$25	일상적인 코딩, 대부분의 에이전트 작업, 모든 고용량 작업
Fable 5	$10	$50	추가적인 성능이 비용을 상쇄할 만큼 어려운 작업

솔직한 프레임은 Fable 5가 여러분의 기본 모델을 대체하는 것이 아니라는 점입니다. 이는 난이도 곡선의 최상단에 있는 작업을 위한 도구입니다. 까다로운 마이그레이션 (Migration), 실제 트레이드오프 (Tradeoff)가 수반되는 아키텍처 결정, 그리고 세 개의 시스템에 걸쳐 있으며 저렴한 모델들의 모든 시도를 거부해 온 디버깅 (Debugging) 세션 같은 것들 말입니다. 그러한 작업들에 대해서는, 절약된 시간에 비하면 두 배를 지불하는 것이 사소한 문제입니다. 하지만 작은 수정과 조회를 반복하는 일상적인 루프에 대해서는, 모든 것을 Fable 5로 라우팅하는 것이 돈을 불태우는 것과 다름없습니다.

플랜 및 API 사용량에 따른 지출을 계획하고 있다면, 저의 Claude 가격 책정 생존 가이드가 트레이드오프를 생각하는 방법을 안내해 줄 것이며, 이번 출시는 그 결정 과정에 새로운 최상위 티어를 추가했습니다. 또한, 아직 하지 않았다면 토큰 비용 관리 (Token cost management)에 진지하게 임해야 할 강력한 근거를 제공합니다. 모델 선택에 게을리했을 때 발생하는 비용이 방금 두 배로 뛰었기 때문입니다.

플랜 측면에서 Anthropic은 통상적인 출시 프로모션을 진행하고 있습니다. Fable 5는 6월 22일까지 Pro, Max, Team, Enterprise 플랜에서 추가 비용 없이 포함되며, 그 이후에는 용량에 따라 사용 크레딧이 적용됩니다. 따라서 비용이 발생하기 전까지 약 2주 동안 무료로 마음껏 사용해 볼 수 있습니다.

Mythos 5: 가드레일이 제거된 동일한 두뇌

이번 출시에서 가장 진정으로 새로운 점은 Fable 5가 아닙니다. 그것은 필터링되지 않은 쌍둥이 모델을, 심지어 제한된 그룹에게라도 출시하기로 한 결정 그 자체입니다.

Mythos 5는 안전 분류기 (Safety Classifiers)가 제거된 Fable 5입니다. 동일한 가중치 (Weights), 동일한 지능을 갖추되, 차단 기능은 전혀 없습니다. Anthropic은 현재 Project Glasswing을 통해 사이버 보안 전문가와 인프라 제공업체에게만 이를 제공하고 있으며, 사이버 보안 가드레일은 유지하면서 생물학적 가드레일은 해제하는 생물학 연구자 프로그램이 곧 출시될 예정입니다.

ExploitBench 수치를 살펴보면 그 이유는 명확합니다. 필터링되지 않은 모델은 공격적 보안 작업에서 78%를 기록하며, 이는 Opus 4.8의 거의 두 배에 달합니다. 이것은 방어자에게는 필요하지만 공격자에게는 없어야 할 능력입니다. 검증된 프로그램을 통해 접근을 제한하는 것은 Anthropic이 그 바늘귀를 꿰려는 시도이며, 날카로운 버전을 시스템을 강화하는 데 사용하는 사람들의 손에 쥐여주는 동시에 다른 모든 이들로부터는 격리하는 것입니다.

제가 수행할 권한이 있는 보안 테스트 관점에서 볼 때, 방어 측면에서 이토록 유능한 모델이 존재한다는 것은 실질적인 변화입니다. 반대로 제가 계속 생각하게 되는 이면도 있습니다. 만약 대중용 모델과 공격용 모델 사이를 가로막는 유일한 것이 분류기 (Classifiers) 세트뿐이라면, 전체 체계의 안전은 전적으로 그 분류기들이 얼마나 뛰어난가에 달려 있습니다. 이는 이번 출시에서 여러분을 다소 불안하게 만들 수 있는 부분으로 이어집니다.

안전 장치, 그리고 여러분을 불안하게 만들 부분

Fable 5는 세 가지 분류기 시스템과 함께 출시됩니다. 하나는 공격적인 사이버 보안 및 취약점 악용 (Exploitation) 작업을 차단합니다. 하나는 이중 용도 (Dual-use) 생물학 및 화학 연구를 차단합니다. 마지막 하나는 모델의 능력을 더 작은 모델로 추출하는 지식 증류 (Distillation)를 방지합니다.

구현 방식이 흥미롭습니다. 안전 장치 (Safeguard)가 작동할 때, Fable 5는 거절하지 않습니다. 대신 조용히 Opus 4.8로 폴백 (Fallback)하여 그곳에서 답변을 제공합니다. Anthropic은 이것이 평균적으로 세션의 5% 미만에서 발생하며, 시스템이 보수적으로 조정되어 있어 때때로 무해한 요청을 차단하기도 한다고 밝혔습니다. 외부 레드팀 (Red-teaming) 테스트 결과, 30가지의 공개된 탈옥 (Jailbreak) 기법에 대해 유해한 단일 턴 (Single-turn) 요청이 성공한 사례가 0건으로 보고되었는데, 이것이 유지된다면 매우 강력한 결과입니다.

지금까지는 합리적입니다. 거절하는 대신 성능을 낮추는 모델은 단호한 차단벽보다 더 나은 사용자 경험 (User Experience)을 제공하며, 작동 시점을 알려주는 투명한 분류기 (Classifier)도 괜찮습니다.

문제는, Interconnects의 Nathan Lambert가 날카롭게 지적했듯이, 모든 성능 저하가 투명하게 이루어지는 것은 아니라는 점입니다. 그는 공개된 안전 장치인 사이버, 생물학 및 지식 증류 (Distillation) 방지 기능(작동 시 사용자에게 알림을 줌)과, 사용자에게 알리지 않고 모델의 동작을 변화시키는 프런티어 AI (Frontier AI) 연구 관련 미공개 수정 사항을 구분합니다. 그의 문장은 직접 인용할 가치가 있습니다: "나에게 알리지 않고 자동으로 지능이 낮아지는 AI 모델은 범주적으로 정렬되지 않은 (Misaligned) AI입니다."