본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 10. 11:37

【2026년 6월】Claude Fable 5 출시! Mythos 클래스 첫 일반 공개·벤치마크·API 이용 정리

요약

Anthropic이 차세대 최상위 모델인 Claude Fable 5를 일반 공개했습니다. Mythos 클래스의 성능을 유지하면서 안전장치를 강화한 모델로, 장기적인 에이전트 실행과 복잡한 코드베이스 이관 등 고난도 태스크에서 압도적인 성능을 보여줍니다.

핵심 포인트

  • Mythos 클래스의 일반 공개 버전으로 Opus보다 상위 티어
  • 장시간 자율 동작 및 복잡한 에이전트 태스크에 특화
  • SWE-bench Pro 및 FrontierCode에서 기존 모델 대비 압도적 성능
  • 비전 태스크에서 SOTA 기록 및 스크린샷 기반 게임 플레이 가능
  • 자체 메모 기능을 활용한 장기 태스크 집중력 유지

2026년 6월 9일, Anthropic이 차세대 모델 Claude Fable 5를 발표했습니다. 이는 2026년 4월에 한정 공개되었던 최상위 티어인 「Mythos 클래스」 모델이 일반 사용자에게 제공되는 첫 번째 사례입니다.

Mythos 클래스는 기존의 플래그십인 Opus 클래스의 한 단계 더 상위에 위치하는 모델군으로, 지금까지는 Claude Mythos Preview로서 일부 사이버 보안 사업자·주요 인프라 제공자 등 제한된 조직에만 개방되어 왔습니다. 이번 출시의 핵심은 새로운 안전장치(Safeguard) 정비를 통해 그 능력을 일반 공개할 수 있는 수준에 도달했다는 점입니다.

가장 큰 포인트는 「길고 복잡한 태스크일수록 타 모델과 격차를 벌린다」는 점입니다. 대규모 코드베이스 이관, 수일에 걸친 에이전트 실행, 깊이 있는 리서치나 고도의 지식 작업(Knowledge work) 등 기존 모델에서는 한계가 있었던 장시간 태스크에서 진가를 발휘합니다.

본 기사에서는 개발자·엔지니어를 위해 Claude Fable 5의 개요, 벤치마크, API 이용 시 주의사항을 정리합니다.

항목Claude Fable 5
모델 ID (API)claude-fable-5
...

가격은 Claude Opus 4.8의 약 2배(Opus 4.8은 입력 $5 / 출력 $25)이지만, 한정 공개되었던 Claude Mythos Preview와 비교하면 절반 이하로 억제되어 있습니다.

참고로 Claude Fable 5는 검증된(Vetted) 파트너에게만 한정 제공되는 **Claude Mythos 5와 동일한 모델(동일한 가중치/Weights)**입니다. 양자의 차이는 세이프가드(Safeguard)의 유무뿐이며, Fable 5는 「일반 공개용으로 안전장치를 추가한 버전」이라는 위치를 가집니다(후술).

보충:

Fable은 라틴어의 fabula(이야기되는 것)에서 유래했으며, 그리스어의 mythos와 어원이 같은 단어입니다. 안전장치가 두 모델을 가르는 유일한 차이점이기 때문에 서로 다른 이름이 붙여졌습니다.

Fable 5의 최대 강점은 과거 그 어떤 Claude 모델보다 길게 자율적으로 동작할 수 있다는 점입니다. Anthropic은 「태스크가 길고 복잡해질수록, 타 모델에 대한 Fable 5의 리드(Lead)는 커진다」고 설명합니다.

상징적인 사례로, Stripe의 조기 테스트에서는 5,000만 행 규모의 Ruby 코드베이스 전체 이관을 하루 만에 완료했다고 보고되었습니다. 이는 인간 팀이 수작업으로 진행했을 경우 2개월 이상 걸릴 규모의 작업이었습니다.

짧은 단발성 질문에서는 차이를 느끼기 어려운 반면, 수 시간 또는 수십 단계의 스텝을 요하는 문제를 던지면 차이가 현저해지는 것이 특징입니다.

에이전트형 코딩이 이번의 핵심입니다.

SWE-bench Pro: Opus 4.8 대비 약 +11포인트 -
FrontierCode (Diamond): Opus 4.8 대비 2배 이상의 스코어를 medium effort (중간 정도의 추론량)로도 달성

medium effort에서도 높은 스코어가 나온다는 점은 중요하며, 이는 최대 추론 토큰을 소비하지 않고도 강력한 결과를 얻을 수 있음을 의미합니다.

Fable 5는 비전(Vision) 관련 태스크에서 새로운 state-of-the-art를 기록했습니다. 상세한 과학 도표에서 정확한 수치를 추출하거나, 스크린샷만으로 웹 앱의 소스 코드를 재구축하는 등의 복잡한 태스크를 수행합니다.

상징적인 데모로서, 기존 모델이 보조 도구(Harness)를 필요로 했던 게임 「포켓몬스터 파이어레드」를 생 게임 화면(스크린샷)만으로 클리어한 사례가 꼽힙니다.

수백만 토큰 규모의 장시간 태스크에서도 집중력을 유지하며, 자신의 메모(Note)를 사용하여 출력을 개선해 나가는 능력을 갖추고 있습니다.

덱 빌딩 게임 「Slay the Spire」를 이용한 평가에서는, 파일 기반의 영속 메모리(Persistent memory)를 부여했을 때의 성능 향상 폭이 Opus 4.8의 3배에 달했다고 보고되었습니다.

복잡한 분석 태스크에서도 강력한 모습을 보입니다. Hebbia의 파이낸스 벤치마크(상급자 수준의 추론)에서 모든 모델 중 최고 스코어를 기록했으며, 문서 기반 추론, 차트·표 해석, 문제 해결의 각 영역에서 대폭적인 향상이 관찰되었습니다.

Anthropic이 공개한 주요 벤치마크의 발췌입니다.

Anthropic이 공개한 주요 벤치마크의 발췌입니다.

벤치마크Fable 5 / Mythos 5Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-bench Verified95.0%88.6%82.6%
SWE-bench Pro80.3%69.2%58.6%54.2%
FrontierCode(Diamond)29.3%13.4%
Terminal-Bench 2.188.0% ※82.7%83.4%70.7%
GDPval-AA(Elo)1932189017691314
공간 추론38.6%14.5%
법무 추론(Legal)13.3%10.4%2.1%0.0%

※ 표기된 수치는 Mythos 5의 점수입니다. Fable 5에서는 안전장치(safeguard)의 폴백(fallback, 후술)이 작동하기 때문에, 사이버, 바이오, 일부 추론 관련 작업에서의 실제 점수는 Opus 4.8에 근접할 것에 유의해야 합니다.

Anthropic의 측정 방식: 공개된 점수는 Mythos 5와 Fable 5 중 더 높은 것을 게재하고 있으며, 두 값의 차이는 대부분의 테스트에서 1~3포인트 이내로 유지됩니다.

주목할 만한 포인트 ①: 코딩이 두드러짐 ― SWE-bench Pro에서 69.2% → 80.3%(Opus 4.8 대비 +11포인트)로 향상되었으며, 차점 모델과 11포인트의 격차를 벌리며 최고 성능을 기록했습니다. FrontierCode Diamond에서는 상대적인 격차가 더욱 커졌습니다.

주목할 만한 포인트 ②: 공간 추론이 약 2.6배 증가 ― 14.5% → 38.6%로 크게 늘어났으며, 이는 도식적/공간적 추론 능력의 향상을 확인할 수 있게 합니다.

주목할 만한 포인트 ③: 법무 추론이 카테고리 최고 수준에 ― '겨우 합격' 수준에서 카테고리 선두로 도약했습니다.

한편, Tesla의 AI 부문을 이끌었던 Andrej Karpathy는 출시 당일에

토큰 종류Claude Fable 5Claude Opus 4.8
입력$10 / MTok$5 / MTok
...

실제 비용을 좌우하는 포인트는 다음과 같습니다.

프롬프트 캐싱 (Prompt Caching): 캐싱된 입력에 90% 할인이 적용되므로, 거대한 시스템 프롬프트나 컨텍스트를 재사용하는 설계가 유효합니다. -
토큰 효율성 (Token Efficiency): Anthropic 및 초기 고객들은 Fable 5가 더 적은 턴(turn)과 더 적은 토큰으로 작업을 완료한다고 보고하고 있습니다. 단가가 2배라 하더라도, 적절한 작업이라면 총액이 겉보기만큼 차이 나지 않는 경우가 있습니다. -
US-only 추론 (US-only Inference): 데이터 레지던시 (Data Residency) 요구 사항을 위해, 1.1배의 가격으로 미국 한정 추론을 이용할 수 있습니다.

claude.ai의 구독 플랜에서는 수요 예측의 어려움을 고려하여 단계적으로 제공됩니다. 플랜에서 Fable 5는 통상적인 2배의 이용량으로 계산됩니다.

2026년 6월 9일 ~ 6월 22일: Pro / Max / Team / 시트 기반의 Enterprise 플랜에서 추가 요금 없이 이용 가능 -
2026년 6월 23일 이후: 위 플랜에서 Fable 5를 일단 삭제. 이후 이용에는 사용 크레딧 (usage credits)이 필요함. 용량에 여유가 있다면 무료 기간을 연장할 가능성 있음 -
그 이후: 충분한 용량이 확보되는 대로, 구독의 표준 기능으로서 Fable 5를 부활시킬 예정

기간 중의 변경 사항에 대해서는 Anthropic이 사전에 공지할 예정이라고 합니다.

이번 출시는 높은 능력만큼이나 안전성 (Safety)에 대한 논의가 중심이 되고 있습니다.

보수적인 세이프가드 (Safeguard) 설정: 안전하고 신속하게 출시하기 위해, 분류기 (Classifier)가 보수적(다소 민감)으로 조정되어 있습니다. 이로 인해 정상적인 요청도 잘못 검출 (False Positive)할 수 있습니다. Anthropic은 출시 후에 이러한 오검출을 줄여나갈 것이라고 밝혔습니다. -
탈옥 내성 (Jailbreak Resistance): 1,000시간 이상의 외부 버그 바운티 (Bug Bounty)에서도 범용적인 탈옥은 발견되지 않았으며, 외부 레드팀 (Red Team)에 의한 장시간 에이전트 태스크에서도 (현 시점에서는) 범용 탈옥은 발견되지 않았습니다. -
얼라인먼트 (Alignment) 평가: 자동 얼라인먼트 평가에서 Mythos 5 (= Fable 5와 동일 모델)의 불일치하는 행동 수준은 낮았으며, Opus 4.8과 비슷한 수준이었습니다. -
Claude Mythos 5: 사이버 방어자 및 인프라 제공자 대상의 한정된 그룹을 위해, 사이버 영역의 세이프가드를 해제한 Mythos 5도 동시에 제공 시작. Project Glasswing을 통해 미국 정부와 협력하여 전개되며, 세계 최강의 사이버 보안 능력을 갖춘 것으로 평가받습니다.

Claude Fable 5는 "Mythos 클래스를 처음으로 일반 공개한다"는 점에서 Anthropic에게 있어 이정표가 되는 출시입니다. 엔지니어에게 중요한 포인트는 다음과 같습니다.

  • Opus의 상위 티어 (Mythos 클래스) 능력을 처음으로 일반 API 및 플랜에서 이용 가능

압도적인 코딩 능력: SWE-bench Pro 80.3% (Opus 4.8 대비 +11pt), 5,000만 행의 코드베이스 이전을 하루 만에 완료한 사례도 있음 -
길고 복잡한 작업일수록 우위: 대규모 이전, 수일 규모의 에이전트 실행, 심층 리서치에 최적 -
비전 (Vision)은 SOTA (State-of-the-Art), 공간 추론 및 법률 추론도 대폭 향상 -
세이프가드 폴백 (Fallback) 주의: 사이버/바이오/증류 관련은 Opus 4.8로 폴백 (전체의 5% 미만). API 이용 시에는 Fallback API 설정이 필요 -
가격은 Opus 4.8의 약 2배 ($10 / $50)이며 30일간의 데이터 보유가 필수 -
구독은 단계적 제공: 6/9 ~ 6/22은 무료, 6/23 이후는 사용 크레딧 필요

짧고, 낮은 지연 시간 (Low Latency), 대량 처리가 요구되는 워크로드에서는 절반 가격인 Opus 4.8이나 더 작은 모델이 여전히 현명한 선택입니다. 많은 팀이 정착하는 패턴은 "작업의 복잡도에 따라 라우팅 (Routing)하는 것"입니다. 즉, 어렵고 가치가 높은 작업은 Fable 5에, 그 외에는 저렴한 모델에 배분하는 방식의 활용입니다.

대규모 리팩토링, 장시간 에이전트 운용, 심층 리서치를 안고 있는 팀에게는 검증할 가치가 높은 모델이라고 할 수 있습니다.

  • Anthropic 공식: Claude Fable 5 및 Claude Mythos 5
  • Anthropic: Claude Fable 제품 페이지
  • Claude API 문서 (모델 목록)
  • AWS: Amazon Bedrock에서 사용 가능한 Claude Fable 5
  • TechCrunch: Anthropic의 Claude Fable 5, 오늘부터 대중이 접근 가능한 Mythos 버전 출시
  • TrueFoundry: Claude Fable 5 — API, 벤치마크 (Benchmarks), 가격 및 사용 방법

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0