본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 06. 10. 10:07

Claude Fable 5 공개——「Opus의 위」에 등장한 새로운 티어는 GPT-5.5와 무엇이 다른가

요약

Anthropic이 Opus 4.8을 상회하는 새로운 모델 Claude Fable 5를 공개했습니다. Fable 5는 고성능 Mythos 5 모델에 세이프가드를 탑재한 일반 공개용 모델로, 자율 에이전트 능력과 시각적 추론 능력이 대폭 강화되었습니다.

핵심 포인트

  • Opus 4.8 및 GPT-5.5를 상회하는 벤치마크 성능 기록
  • 위험 요청 시 Opus 4.8로 자동 폴백되는 세이프가드 메커니즘 적용
  • 장기 자율 에이전트 및 파일 기반 메모리 성능 강화
  • 시각 정보 기반의 컴퓨터 조작 및 게임 클리어 능력 향상

古い写本から立ちのぼる金色の光が、回路と星座でできた鳳凰を形づくるイメージ

2026년 6월 9일, Anthropic이 Claude Fable 5 (모델 ID: claude-fable-5)를 공개했습니다. Opus 4.8 출시로부터 불과 12일 만이며, 심지어 Opus의 '위'에 새로운 티어를 만들어 투입한 것입니다.

Anthropic은 Fable 5를 "지금까지 일반 제공해 온 그 어떤 모델보다 능력이 높다"라고 설명하며, 거의 모든 공개 벤치마크에서 Opus 4.8과 OpenAI의 GPT-5.5를 상회했다고 밝혔습니다. 반면 가격은 input $10 / output $50 (per 1M tokens)로, GPT-5.5 ($5 / $30)의 약 2배입니다.

본 기사에서는 "Fable이란 무엇인가", "GPT-5.5와 무엇이 다른가", "2배의 가격을 어떻게 해석해야 하는가"를 1차 정보(Primary Information)를 기반으로 정리합니다.

Fable 5란——「Mythos 클래스」와 두 개의 이름

이번 발표는 사실 2개의 모델이 동시에 이루어졌습니다.

  • Claude Mythos 5: Anthropic의 최고 성능 모델. 단, 일반 제공은 되지 않으며, Project Glasswing(미국 정부와 연계된 프레임워크)을 통해 심사된 사이버 방어, 중요 인프라, 의학 연구 기관 등에 한정하여 제공됩니다.
  • Claude Fable 5: Mythos 5와 동일한 모델에 일반 이용을 위한 세이프가드 (Safeguard)를 탑재한 것. 이것이 이번에 일반 공개된 "Mythos 클래스 최초의 GA (General Availability) 모델"입니다.

명명에 대해 Anthropic은 "Fable은 라틴어 fabula(이야기되는 것)에서 유래했다. 그리스어의 mythos에 해당하는 단어로, 두 모델을 나누는 것은 세이프가드이며, 그렇기에 이름을 나누었다"라고 설명했습니다.

세이프가드 메커니즘: 위험한 질문은 Opus 4.8로 "강등"된다

Fable 5의 특징적인 설계는 **분류기 (Classifier)에 의한 자동 폴백 (Fallback)**입니다.

  • 사이버 보안 (공격·악용 계열)
  • 생물·화학 (바이오 보안 및 일부 의료·이중 용도 연구 포함)
  • 증류 (대규모 능력 추출 의심)

위 3개 계통의 분류기가 요청을 모니터링하며, 플래그(Flag)가 세워질 경우 Fable 5가 아닌 Claude Opus 4.8이 응답합니다. Anthropic은 발동률을 "평균적으로 세션의 5% 미만"이라고 밝혔으며, 외부 레드팀(Red Team)의 1,000시간 초과 테스트에서 유니버설한 탈옥(Jailbreak)은 발견되지 않았다고 합니다.

주요 특징

1. 장시간·자율 에이전트의 추가 강화

Opus 4.8의 노선(장시간 자율 실행)을 그대로 확장한 형태로, Anthropic은 "며칠이 걸리는 복잡한 비동기 태스크를 기존 모델에서는 유지할 수 없었던 수준으로 수행할 수 있다", "자신의 결과물을 능동적으로 테스트·검증한다"라고 어필하고 있습니다. Stripe는 "수개월 분량의 엔지니어링을 수일로 압축했다"라고 코멘트했습니다.

2. 파일 기반 메모리와 시각 능력의 대폭 향상

  • 로그라이크 게임 Slay the Spire의 공략 성능이 영구 파일 메모리를 사용한 구성에서 Opus 4.8 대비 약 3배 향상되었습니다.
  • 포켓몬스터 FireRed를 스크린샷(시각 정보)만으로 클리어. 컴퓨터 조작 벤치마크인 OSWorld-Verified에서도 85.0%로 최고 수준을 기록했습니다.

3. API 사양: adaptive thinking이 "상시 온(Always-on)"

개발자 관점에서 중요한 변경점입니다.

  • adaptive thinking이 유일한 사고 모드입니다. thinking 파라미터를 생략해도 adaptive하게 동작하며, thinking: {"type": "disabled"}를 명시적으로 보내면 400 에러가 발생합니다 (Opus 4.8에서는 허용되었습니다). 사고의 깊이는 effort 파라미터 (low / medium / high / xhigh / max)로 제어합니다.
  • temperature / top_p / top_k는 Opus 4.7 이후와 마찬가지로 폐지되었습니다 (보낼 경우 400 에러).
  • 컨텍스트(Context) 100만 토큰, 최대 출력 128K. 프롬프트 캐시(Prompt Cache)는 캐시된 input이 90% 할인됩니다.
  • 새로운 기능: 거절(Refusal) 발생 시 서버 측에서 다른 모델로 자동 재시도하는 메커니즘이 추가되었습니다. fallbacks 파라미터 (베타)

GPT-5.5와의 스펙 및 가격 비교

비교 대상은 OpenAI의 현행 플래그십인 GPT-5.5 (2026년 4월 23일 출시)입니다.

항목Claude Fable 5GPT-5.5
제공처AnthropicOpenAI
...gpt-5.5
컨텍스트 길이 (Context Length)1,000,000 tokens1,000,000 tokens (API)
최대 출력 (Max Output)128k tokens128k tokens
입력 가격 (Input Price / 1M)$10.00$5.00
...

벤치마크 비교: 어디서 승리하고, 어디가 보이지 않는가

Anthropic이 공표한 비교표(전기 값)에서 주요 항목을 발췌합니다.

벤치마크 (Benchmark)Fable 5Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-bench Pro (실무급 코딩)80.3%69.2%58.6%54.2%
FrontierCode Diamond29.3%13.4%5.7%
Terminal-Bench 2.188.0%82.7%83.4%70.7%
OSWorld-Verified (PC 조작)85.0%83.4%78.7%76.2%
Humanity's Last Exam (도구 사용)64.5%52.2%
GDPval-AA (지식 노동, Elo)1932189017691314
HealthBench Professional66.0%56.9%51.8%

※ Terminal-Bench의 경우 Anthropic 표는 버전 2.1이며, OpenAI 공식 발표는 2.0(82.7%)으로 버전이 다릅니다.

Fable 5가 명확하게 강한 영역

  • 실무급 코딩 (Coding): SWE-bench Pro에서 GPT-5.5보다 21.7포인트 앞섭니다. 특히 난제들이 모여 있는 FrontierCode Diamond에서는 **29.3% vs 5.7%**로 약 5배의 격차를 보이며, 발표 이후 가장 많이 인용되는 수치입니다. Claude Code 개발자인 Boris Cherny 씨도 "내가 사용해 본 것 중 압도적으로 최고의 코딩 모델"이라고 언급했습니다.
  • 에이전트 및 컴퓨터 조작 (Agent/Computer Use): Terminal-Bench, OSWorld 모두에서 1위를 차지했습니다.
  • 지식 노동 및 전문직 태스크 (Knowledge Work/Professional Tasks): GDPval-AA, HealthBench, 법률 관련 벤치마크에서 최고치를 기록했습니다.

GPT-5.5가 우위에 있는 (또는 비교 불가능한) 영역

공정성을 위해 덧붙이자면, Anthropic은 추상 추론(Abstract Reasoning), 수학, 과학 계열의 점수를 공표하지 않았습니다. 이 영역에서는 GPT-5.5의 공표된 수치가 현재 최고 수준입니다.

  • ARC-AGI-2: 85.0%, GPQA Diamond: 93.6%, FrontierMath Tier 4: 35.4% (Pro는 39.6%)
  • 에이전트 검색 (BrowseComp): 84.4% (Pro는 90.1%)
  • 장문맥 검색 계열 (OpenAI-MRCR, 512K–1M)에서는 GPT-5.5가 앞서고, 그래프 탐색 계열 (GraphWalks BFS @1M)에서는 Fable 5가 앞서는 등, 1M 컨텍스트의 "내용"에 따라서도 특기 분야가 나뉩니다.

제3자 평가에서는 Artificial Analysis의 Intelligence Index가 Fable 5 ≈ 65 > Opus 4.8 ≈ 61 > GPT-5.5 ≈ 60라는 서열을 내놓았습니다 (4월 시점에는 GPT-5.5가 1위였습니다).

가격 2배를 어떻게 해석할 것인가

명목 가격은 Fable 5($10/$50)가 GPT-5.5($5/$30)의 약 2배로, "GPT-5.5는 반값이다—그게 전부다"라는 논평도 있습니다. 하지만 실효 비용은 조금 더 복잡합니다.

  • 토큰 효율 (Token Efficiency): Hacker News에서는 "Opus 4.8 대비 약 절반의 토큰으로 더 좋은 결과를 얻을 수 있다"는 보고가 있으며, 이것이 일반화된다면 작업 단가는 Opus 4.8과 거의 중립적이 됩니다 (일화에 기반한 내용이므로 검증이 필요합니다).
  • 긴 문맥 (Long Context) 과금 방식: GPT-5.5는 272K 초과 시 input 2배 / output 1.5배의 추가 과금이 발생합니다. Fable 5는 1M까지 일률적이므로, 거대 컨텍스트를 사용할수록 명목상의 차이는 줄어듭니다.
  • 캐시 (Cache): 캐시된 input은 90% 할인됩니다 ($1/1M). 에이전트(Agent) 용도에서 효과적입니다.
  • 세부 사항으로, 미국 내 추론 한정 옵션은 1.1배의 요금이 적용됩니다.

사용 전 알아두어야 할 주의사항

  • 채팅 플랜 제공은 기간 한정: claude.ai의 Pro / Max / Team / 시트제 Enterprise에서는 6월 9일~22일까지 추가 비용 없이 사용할 수 있지만, 6월 23일 이후부터는 사용 크레딧이 필요합니다.
  • 데이터 보유 (Data Retention): Fable 5 / Mythos 5는 "Covered Models"로 지정되어 있으며, 30일간의 데이터 보유가 필수입니다 (제로 데이터 리텐션 불가). 컴플라이언스(Compliance) 요건이 엄격한 경우에는 확인이 필요합니다 (학습에는 사용하지 않는다고 명시되어 있습니다).
  • 세이프가드 (Safeguard) 오탐지: 앞서 언급한 바와 같이, 의료·생물·보안 계열 워크로드(Workload)에서는 Opus 4.8로의 폴백(Fallback) 발동을 직접 측정해 본 후 판단하십시오.
  • 이용 측면에서는 Claude API / Claude Platform on AWS / Amazon Bedrock / Vertex AI / Microsoft Foundry에서 첫날부터 이용 가능합니다. Claude Code와 GitHub Copilot (Pro+/Business/Enterprise)에도 당일 포함되었습니다.

어떻게 구분해서 사용할 것인가

  • 대규모·장시간 코딩 에이전트, 난이도 높은 리팩터링 (Refactoring): Fable 5. FrontierCode Diamond에서의 5배 차이와 Terminal-Bench 1위는 이 용도와 직결됩니다.
  • 수학·과학 계열의 추론, 리서치 계열의 에이전트 검색: GPT-5.5 (특히 Pro). Anthropic이 미공개한 영역이기도 하며, 현재 공개된 수치로는 OpenAI가 우위에 있습니다.
  • 비용 최우선 대량 처리: GPT-5.5, 또는 애초에 프런티어(Frontier)급이 필요하지 않다면 Sonnet / Haiku급으로도 충분합니다.
  • "정확성이 치명적으로 중요한" 전문직 태스크 (법무·의료·금융 문서): GDPval / HealthBench / 법무 벤치마크 결과를 보면 Fable 5가 한발 앞서 있습니다.

실례: 보안 제품 개발에서는 "상위 티어"가 효과적이다

저희 Springhiker는 iOS 비밀번호 관리자 Kakuremi를 Claude (Claude Code)로 개발 및 운영하고 있습니다.

비밀번호 관리자와 같은 보안 제품에서는 코드의 결함이 곧바로 사용자의 기밀 정보 유출로 이어집니다. KDBX (KeePass 형식) 파싱의 에지 케이스 (Edge case) 식별이나, "네트워크에 노출되지 않았다고 생각한 부분이 노출된" 경우와 같은 프라이버시 전제의 붕괴를 탐지하는 등, 놓치면 치명적이지만 인간이 간과하기 쉬운 작업에서 모델의 "끈기"와 "정직함"이 직접적으로 작용하기 때문에, 프런티어 모델의 세대교체는 그때마다 실무에서 검증하고 있습니다. Fable 5는 Claude Code에 첫날부터 도입되었으므로, 이러한 검증 워크로드에 대한 소감은 추후 별도의 기사로 공유할 예정입니다.

관련 기사: iOS에서 "YubiKey 영구 무료" 비밀번호 관리 앱을 만든 이야기

App Store: https://apps.apple.com/app/id6761427915

사이트: https://kakuremi.com

요약

  • Claude Fable 5는 「Opus의 위」에 신설된 Mythos 클래스 최초의 일반 제공 (General Availability) 모델입니다. 내부 사양은 한정 제공되는 Mythos 5와 동일하며, 세이프가드 (Classifier → Opus 4.8 Fallback)의 유무만 다릅니다.
  • 코딩, 에이전트, 지식 노동 계열 벤치마크에서는 현재 거의 독식 중입니다. 특히 FrontierCode Diamond에서 GPT-5.5 대비 5배 차이를 보인 점이 상징적입니다.
  • 수학 및 추상 추론 (Abstract Reasoning) 결과는 미공표 상태이며, 해당 영역의 공표된 수치는 GPT-5.5가 최상위권입니다. 비교 시 「공표된 기준 (Arena/Benchmark)」이 각 사마다 다르다는 점에 주의해야 합니다.
  • 가격은 명목상 2배지만, 토큰 효율성 · 일괄 과금 방식의 긴 문맥 (Long Context) · 캐시 (Cache) 90% 할인 덕분에 실질적인 차이는 줄어들 가능성이 있습니다. 자신의 워크로드 (Workload)에서 직접 측정해 보는 것이 결론입니다.
  • 운영 측면의 주의사항은 3가지입니다: 채팅 플랜은 6/23부터 유료 크레딧제로 전환되며, 30일 데이터 보관이 필수이고, 세이프가드의 오탐지 (False Positive) 보고가 있습니다.

출처

공식 (1차):

보도 · 2차:

보도 · 2차:

토론

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0