Anthropic이 일반 대중에게 첫 차세대 모델을 출시했습니다

6월 13일 업데이트 사항은 하단에 있습니다.

다른 많은 이들과 마찬가지로, 저 또한 지난 몇 달 동안 Anthropic이 새로운 모델인 Mythos(현재 공식 명칭은 Mythos 5)로 무엇을 했는지 잘못 이해했습니다. 그들은 이 모델을 일반 대중에게 공개하지 않고 Project Glasswing 파트너들에게만 제공했습니다. 저는 이것이 마케팅 상술이라고 가정했습니다. 모델이 이전 모델들보다 분명 더 나을 것이긴 하겠지만, 그 주변의 모든 이야기가 과장된 것처럼 느껴졌기 때문입니다. 다른 엔티티에 대한 악의적인 공격에 사용자가 모델을 남용하지 못하도록 안전 장치(safeguards)와 가드레일(guardrails)을 먼저 구현한다는 그들의 주장은 저에게 변명처럼 들렸습니다. 제가 생각한 진짜 이유는 그들이 단순히 가용 컴퓨팅 자원(compute)이 부족했기 때문이었습니다. 새로운 모델은 훨씬 더 많은 토큰과 막대한 양의 컴퓨팅 자원을 필요로 하기 때문입니다.

제가 틀렸습니다.

안전 장치는 변명이 아니었습니다: Project Glasswing을 통해 15개국 이상의 약 200개 검증된 조직들이 Claude Mythos Preview를 사용하여 전력, 용수, 의료, 통신 등 핵심 코드베이스(codebases)를 스캔해 왔으며, 10,000개 이상의 높음 또는 심각한 수준의 보안 결함을 발견했습니다. 그리고 컴퓨팅 자원 또한 실제 병목 현상(bottleneck)이 아니었습니다. 공개 버전은 단순히 사이버 보안, 생물학 및 화학, 그리고 증류(distillation) 시도에 대한 새로운 안전 분류기(safety classifiers)가 먼저 필요했을 뿐입니다. 이 분류기들은 이제 플래그가 지정된 세션에서 영향을 받는 쿼리를 Opus 4.8로 라우팅합니다.

저는 이 블로그 시리즈를 저의 AI 코딩 여정과 함께 시작했습니다. 그 여정은 정확히 반년 전인 12월 초, Opus 4.5가 출시된 지 몇 주 후에 시작되었습니다. 그 출시는 적어도 저의 개인적인 역사에서는 분명한 변곡점이었습니다. 왜냐하면 그 모델을 통해 저는 처음으로 코드를 작성할 수 있었기 때문입니다 — 아니, 프롬프트(prompt)를 통해 코드를 생성할 수 있었다고 말하는 것이 맞겠네요. 오만하게 들리지 않기를 바랍니다만, 저는 코드가 어떤 모습이어야 하는지에 대해 상당히 확고한 주관을 가지고 있습니다. 그리고 Opus 4.5는 마치 제가 직접 작성한 것처럼 코드를 작성한 첫 번째 모델이었습니다. 동일한 품질, 동일한 스타일, 동일한 패턴 등을 갖춘 모델 말이죠. Opus 4.5 이전까지 저는 이러한 에이전트형 도구(agentic tools)들이 그저 쓸모없는 결과물(slop)만 만들어낸다고 생각했습니다. 하지만 6개월 전, 제가 틀렸음이 증명되었습니다.

또한 저는 Mythos 이야기가 마케팅 수법이라고 생각했는데, 이 역시 제가 틀렸음이 증명되었습니다. 2026년 6월 9일, Anthropic은 Fable 5를 대중에게 공개했습니다. 이는 Mythos 5와 동일한 기반 모델이지만, 새로운 안전 장치(safeguards)가 적용된 모델입니다. 그리고 이것은 단순한 또 다른 출시가 아닙니다. 이것은 LLM(대규모 언어 모델)의 새로운 세대이며, 정말로, 정말로 강력한 능력을 갖추고 있습니다.

이 모델은 이전에 GPT 5.5나 Opus 4.8을 사용했던 모든 용도로 사용할 수 있습니다. 단지 제가 이전에 본 적 없는 수준의 품질과 견고함(robustness)을 바탕으로 훨씬 더 일을 잘해낼 뿐입니다. 개인적으로 인정해야겠습니다. 이 모델은 저보다 코드를 더 잘 작성합니다. 물론 이것이 제가 쓸모없어졌다는 뜻은 아닙니다. 고품질의 결과를 위해 모델을 올바른 방향으로 이끌어줄 숙련된 시니어 웹 개발자가 여전히 필요합니다. 그리고 그것이 항상 저의 목표입니다. 프로젝트나 설정이 무엇이든 상관없이 고품질의 코드를 배포(ship)하는 것 말입니다.

솔직히 말해서, 저는 이 시리즈에서 모델 업데이트를 발표할 계획이 없었습니다. 적어도 처음 3개월이나 6개월 동안은 말이죠. 왜냐하면 모델에 대한 온갖 과장된(hype) 게시물과 영상들에 다소 짜증이 났기 때문입니다. 하지만 이미 말씀드렸듯이, 저는 이 모델이 정말로 차세대(new generation)라고 생각하기 때문에 이곳에서 다루어야만 했습니다. 어제 Manfred는 왜 이 모델이 차세대라고 생각하는지 제게 물었고, 의외로 답변하기가 어려웠습니다. 저는 이렇게 말했습니다. "생각해 볼게요. 내일 말씀드리거나, 아니면 더 좋게는 블로그 포스트를 하나 쓰겠습니다."

그래서 이 포스트를 작성하게 되었습니다.

무엇이 Fable 5를 차세대로 만드는가?

Fable 5를 차세대로 만드는 첫 번째 요소는 그것이 작성하는 코드의 품질입니다. 코드는 단순히 좋은 수준을 넘어 정말 높은 품질을 보여줍니다. 베스트 프랙티스 (best practices)를 따르고, 구조가 좋으며, 깔끔하고, 마치 유능한 시니어 개발자가 작성한 것처럼 보입니다. 이는 이전 모델들로부터 엄청난 도약입니다. 저는 이전에 GPT 5.5 및 Opus 4.8로 작업했던 결과물을 검토하는 데 이 모델을 사용해 보았는데, 버그와 문제점, 그리고 잠재적인 이슈들을 즉각적으로 찾아냈습니다. 또한 코드 단순화 (simplification) 작업에도 사용해 보았는데, 그 역시 매우 잘 처리했습니다. 따라서 기본적으로 모든 용도에 사용될 수 있습니다.

Fable 5의 뛰어난 기능과 역량에 대한 불완전한 목록은 다음과 같습니다:

장기적 자율성 (Long-horizon autonomy): Anthropic은 Fable 5가 이전의 그 어떤 모델보다 훨씬 더 오랫동안 문제에 머물 수 있으며 개입 없이 며칠 동안 작동할 수 있다고 말합니다. Andrej Karpathy는 이를 지난 11월 Opus 4.5가 보여주었던 것과 맞먹는 수준의 비약적인 변화(step change)라고 불렀습니다. 특히 매우 어려운 문제에 대한 장기적인 문제 해결 세션에서 더욱 그렇습니다. 저도 그의 의견에 전적으로 동의하며, 그것이 바로 제가 이 글을 쓰는 실제 이유입니다. 이 모델은 파일이 아니라 문제를 가리키는 모델입니다.
모호한 입력, 검증된 결과 (Vague goals in, validated results out):
벤치마크 도약 (Benchmark jump): Artificial Analysis 지능 지수에서 이 모델은 현재까지 측정된 모델 중 가장 똑똑한 모델이며, GPT 5.5보다 약 5점 앞서 있습니다. 이는 오랫동안 발생하지 않았던 가장 큰 단일 도약 중 하나입니다. 언제나 그렇듯, 이는 **최종적인 정답이 아닌 유용한 신호 (useful signals, not final answers)**로 받아들여야 합니다.
비전 (Vision): Anthropic이 처음으로 비전 (Vision) 분야에서 OpenAI를 앞질렀습니다. 이는 우리의 작업 방식에 생각보다 더 큰 의미를 갖습니다. 예를 들어, 스크린샷 기반의 Angular 컴포넌트 UI 검증이나, 기존의 진부한 템플릿이 아닌 실제 안목을 반영한 디자인 작업 등을 생각해 보십시오.
단순 코딩 그 이상 (Not just coding): Anthropic은 이 모델을 금융, 연구, 경제 및 법률 분야를 위해 명시적으로 포지셔닝하고 있으며, 초기 리뷰들에 따르면 글쓰기 능력조차 이전보다 눈에 띄게 LLM 슬롭 (LLM slop, 저급한 생성물)이 줄어들었다는 점에 동의하고 있습니다.

마지막 항목에 대해, 개인적으로 디자인과 글쓰기 — 기본적으로 이메일부터 프로젝트 계획에 이르기까지 모든 것을 추가하고 싶습니다. 이 모델은 이 모든 작업에 믿을 수 없을 정도로 뛰어납니다. 사용자가 시키는 일을 수행할 뿐만 아니라, 진행 중인 작업의 과정을 안내하며, 목표를 향한 다음 단계로 나아갈 수 있는 유용한 제안을 가지고 돌아옵니다.

DeepSWE Benchmark by Artificial Analysis

2026년 6월 12일에 기록된 현재 코딩 에이전트(coding agents)들의 DeepSWE 점수 – 실시간 비교를 보려면 차트를 클릭하세요. 엄밀히 말하면 이것은 코딩 에이전트(coding-agent) 결과이므로 하네스(harness)가 중요합니다. 여기서 Fable 5는 Claude Code 내부에서 최대 성능(max effort)으로 실행됩니다. 이 뷰의 장점은 기존 DeepSWE 리더보드에서는 공개 API 부재로 인해 테스트할 수 없었던 Composer 2.5까지 포함되어 있다는 점입니다.

2026년 6월 12일에 기록된 Artificial Analysis 지능 지수 (Artificial Analysis Intelligence Index) – 실시간 비교를 보려면 차트를 클릭하세요. Fable 5가 최상단에 위치하며, GPT 5.5, GPT 5.5 Pro, 그리고 Opus 4.8을 명확하게 앞서고 있습니다.

따라서 이 모델은 정말 미친 듯이 좋습니다 – 거의 믿기 어려울 정도로 말이죠. 이는 당연한 질문으로 이어집니다: 함정이 무엇인가요?

모든 Fable에는 세부 조항이 있다

함정은 하나가 아니라 여러 개가 있습니다. 어떤 것은 단순히 짜증 나는 정도이고, 어떤 것은 귀하의 설정에서 결정적인 결격 사유(deal-breakers)가 될 수도 있습니다.

안전 장치(safeguards)는 실재하며, 당신은 그것을 느끼게 될 것입니다. Anthropic은 세션의 5% 미만이 Opus 4.8로 라우팅된다고 말하며, 지금까지 저의 코딩 작업에서도 그와 일치했습니다 – 저는 아직 단 한 번의 거절(refusal)도 겪지 않았습니다. 하지만 Artificial Analysis는 벤치마크 작업의 8%에서 폴백 라우팅(fallback routing)을 기록했으며, 이는 주로 과학적인 질문에서 발생했습니다. 적어도 라우팅은 투명합니다. 라우팅이 발생하면 사용자에게 알려줍니다.

하지만 한 가지 안전장치는 조용히 작동합니다. Fable 5가 사용자가 프런티어 LLM (Frontier LLM) 개발 작업을 하고 있다고 감지하면, 사용자에게 알리지 않습니다. 대신 프롬프트 수정 (Prompt modification), 스티어링 벡터 (Steering vectors), 그리고 매개변수 효율적 미세 조정 (Parameter-efficient fine-tuning)을 통해 스스로의 능력을 조용히 제한합니다. Anthropic은 이것이 트래픽의 0.03%와 조직의 0.1% 미만에 영향을 미친다고 추정하므로, 대부분의 Angular 개발자들은 이를 결코 경험하지 못할 것입니다. 그럼에도 불구하고, 조용히 제한된 모델에 대해 전체 비용을 지불하는 것은 제가 정말 좋아하지 않는 전례입니다.

데이터 보존 제로(Zero data retention)는 없습니다. 모든 Fable 5 트래픽은 30일간의 보존을 요구하며, 이는 기업 고객(Enterprise customers)에게도 예외 없이 적용되며 거부할 수 없습니다(No opt-out). Anthropic은 데이터가 학습이나 안전 이외의 목적으로 사용되지 않는다고 주장하지만, 제가 데이터 프라이버시 포스트에서 썼듯이, "학습에 사용되지 않는다"는 것이 "보존되지 않는다"는 의미는 아닙니다. 규제 산업과 엄격한 기업 정책을 가진 곳들에게 이것만으로도 **시작조차 할 수 없는 문제 (Non-starter)**가 될 수 있습니다.

이제 우리 모두에게 직접적인 영향을 미치는 세 가지 함정에 대해 알아보겠습니다:

시간이 흐르고 있습니다. Fable 5는 6월 9일부터 2026년 6월 22일까지만 유료 Claude 구독에 포함됩니다. 6월 23일부터는 이를 사용하기 위해 사용 크레딧 (Usage credits)이 필요합니다. Anthropic은 "용량이 허용된다면" 포함된 기간을 연장하겠다고 말하지만, 저는 제 워크플로를 거기에 걸지는 않겠습니다. 이 글을 쓰는 지금, 차세대 프런티어 모델을 보조금 혜택을 받으며 사용할 수 있는 날이 열흘 남았습니다. 이 기간을 활용하십시오. 가장 어려운 리팩터링 (Refactorings), 가장 까다로운 레거시 마이그레이션 (Legacy migrations), 그리고 어떤 모델도 처리할 수 없어서 미뤄두었던 작업들을 실행해 보십시오.

속도가 느립니다. 간단한 작업조차 1분에서 3분이 소요되며, 이보다 더 빨리 완료되는 실행을 거의 본 적이 없습니다. 이는 낮은 추론 (low reasoning) 성능에서도 빛을 발하는 Composer 2.5나 GPT 5.5가 활약하는 긴밀한 상호작용 루프 (interactive loop)를 위한 모델은 아닙니다. 하지만 제가 비용 관련 포스트에서 주장했듯이, 실질적인 속도 지표는 초당 토큰 수 (tokens per second)가 아니라, 검토된 디프 (reviewed diff)를 얻기까지의 엔드 투 엔드 (end-to-end) 시간입니다. 긴 자율 실행 (autonomous runs)의 경우, Fable 5의 속도는 수용 가능한 수준입니다. 빠른 편집을 원한다면 다른 것을 사용하십시오.

비용이 비쌉니다. 백만 토큰당 대략 입력 10유로, 출력 50유로 수준으로 이는 Opus 4.8 가격의 약 두 배이며, 그에 따라 사용량 제한 (usage limits)도 소진됩니다. 초기 사용자들은 10분도 채 되지 않아 사용량 기반 추론 (usage-based inference) 비용으로 약 100유로를 소진하거나, 단 하룻밤 사이에 200유로짜리 구독 2개의 5시간 세션 제한을 모두 채웠다고 보고하고 있습니다. 물론, 작업당 필요한 토큰 수는 더 적기 때문에, 수락되고 검토되어 병합된 변경 사항당 비용 (cost per accepted, reviewed, merged change) 측면에서는 어려운 문제에 대해 여전히 이득일 수 있습니다. 하지만 일상적인 편집 작업에 이 모델은 그저 과합니다. 그리고 6월 22일 이후에는 그에 걸맞은 가격이 책정될 수도 있습니다.

Anthropic이 일반 대중에게 첫 차세대 모델을 출시했습니다

요약

핵심 포인트

무엇이 Fable 5를 차세대로 만드는가?

모든 Fable에는 세부 조항이 있다

댓글