Claude Fable 5 — 구현자 관점에서 정리한 Opus 상위의 새로운 티어 - Insights | Molayo

2026년 6월 9일, Anthropic이 Claude Fable 5(claude-fable-5)를 GA(General Availability, 일반 제공)했다. Opus 상위에 신설된 최상위 티어로, 입출력 단가는 Opus 4.8의 정확히 2배이다. 그리고 기존 모델과 달리, 안전 분류기(Safety Classifier)에 의한 거부(Refusal)와 다른 모델로의 폴백(Fallback)이 API 설계에 포함되어 있다.

이 기사는 Claude API를 프로덕션에서 사용 중인 개발자를 대상으로 "무엇이 변하며, 코드의 어느 부분을 수정해야 하는가"를 공식 문서 기반으로 정리한다. 포지셔닝, 가격, API 차이점, refusal/fallback 구현, 프롬프팅(Prompting), 마이그레이션 체크리스트까지 한 번에 다룬다.

포지셔닝 — 티어가 한 단계 늘어났다

지금까지 Claude의 티어는 Opus > Sonnet > Haiku의 3단계였다. Fable 5는 그 위에 위치한다.

모델	티어	역할
Claude Fable 5	신규 최상위	가장 까다로운 추론 및 장시간 에이전트 작업
Claude Opus 4.8	Opus 최상위	복잡한 추론 및 에이전트 코딩의 주력
Claude Sonnet 4.6	밸런스	속도와 지능의 양립
Claude Haiku 4.5	고속·저가	단순 태스크

공식적인 활용 지침은 명확하다. **"먼저 Opus 4.8로 시작하고, 사용 가능한 최고의 능력이 필요한 워크로드에 Fable 5를 사용하라"**는 것이다. 후술하겠지만 가격이 2배이므로, 그 차이에 상응하는 작업만을 Fable로 보내는 것이 기본 원칙이 된다.

Mythos 5와 Project Glasswing

같은 날 Claude Mythos 5(claude-mythos-5)도 발표되었다. Fable 5와 동일한 능력을 갖추고 있지만 안전 분류기를 일부 해제한 구성으로, 심사제 프로그램인 "Project Glasswing"의 승인 고객에게만 제공된다(일반 제공 없음). 방어적 사이버 보안 연구 프리뷰였던 Mythos Preview의 후속 모델이다.

즉 "Fable 5 = 분류기가 포함된 일반 제공 버전, Mythos 5 = 분류기를 제거한 한정판"이라는 동일 모델의 두 가지 구성이다. 이 구조를 이해하면 후술할 refusal/fallback 설계가 "왜 이렇게 되어 있는지"를 더 쉽게 이해할 수 있다.

참고로 두 모델 모두 Covered Models 지정 사항으로, 데이터 보유 30일 고정이며 제로 데이터 리텐션(Zero Data Retention, ZDR) 대상에서 제외된다. 컴플라이언스 요건이 있는 경우 사전에 확인이 필요하다.

스펙과 가격

항목	Fable 5	Opus 4.8 (참고)
모델 ID	`claude-fable-5`	`claude-opus-4-8`
컨텍스트 (Context)	1M 토큰	1M 토큰
최대 출력	128K 토큰	128K 토큰
입력 / 출력	$10 / $50 per MTok	$5 / $25
캐시 쓰기 (5분 / 1시간)	$12.50 / $20	$6.25 / $10
캐시 읽기	$1	$0.50
Batch API (입력 / 출력)	$5 / $25	$2.50 / $12.50
사고 모드 (Thinking Mode)	adaptive 상시 On	adaptive (생략 시 Off)

핵심 포인트는 세 가지다.

1M 컨텍스트는 표준 가격이다. 긴 컨텍스트 할증은 없다 (900K 토큰 요청도 9K와 동일한 단가).
토크나이저(Tokenizer)는 Opus 4.8과 동일하다 (Opus 4.7에서 도입된 것). Opus 4.8에서 마이그레이션한다면 토큰 수는 거의 불변이다. 단, 4.6 이전 모델과 비교하면 동일한 텍스트에 대해 약 30% 더 많은 토큰을 소비한다.
고속 출력인 Fast mode는 현재 대상으로 제외되어 있다 (가격표에 Fable에 대한 기재가 없음. Opus 4.6/4.7/4.8만 존재).

제공 플랫폼은 Claude API / Claude Platform on AWS / Amazon Bedrock (anthropic.claude-fable-5) / Vertex AI / Microsoft Foundry이다. GitHub Copilot에서도 같은 날 GA되었다.

벤치마크

공식 문서에 점수는 게재되어 있지 않다. 다음은 보도 및 제3자 집계에 의한 참고치다.

벤치마크	Fable 5	Opus 4.8	타사
SWE-bench Pro	80.3%	69.2%	GPT-5.5: 58.6% / Gemini 3.1 Pro: 54.2%
...

수치보다 공식이 명시하는 **개선 영역 (improvement areas)**이 실무의 판단 자료가 된다. Opus 4.8 대비:

장시간 자율성 (Long-term autonomy) — 수일 규모의 목표 지향적 실행 (goal-oriented run)을 지시를 유지한 채 완수함
단일 패스 정답률 (One-shot accuracy) — 기존에는 수일간의 반복이 필요했던 시스템의 단일 패스 (single-pass) 구현이 보고됨
비전 (Vision) — 밀도가 높은 기술 이미지 및 스크린샷을 고정밀도로 해석. 반전되거나 흐릿한 이미지는 bash/crop 도구를 사용하여 스스로 처리하도록 훈련됨
코드 리뷰/디버깅 (Code review/debugging) — 버그 발견의 재현율 (recall)이 명확하게 향상됨 (분류기가 대상으로 하는 사이버 영역 제외)
**병렬 서브 에이전트의 위임 및 관리 (Delegation and management of parallel sub-agents)**가 대폭 신뢰성 향상

반대로, 공격적 사이버 보안과 바이오·라이프 사이언스는 설계상의 비대상 영역이며, 후술할 거절 (refusal)이 반환된다.

API 차이점 — 코드의 어디를 수정해야 하는가

Messages API 및 도구 사용 패턴은 Opus 4.8과 동일하여, 마이그레이션은 거의 드롭인 (drop-in) 방식이다. 다만 다음과 같은 차이점이 있다.

adaptive thinking이 항상 켜져 있음

Fable 5의 사고 모드는 adaptive뿐이며, 비활성화할 수 없다.

client.messages.create(
model="claude-fable-5",
max_tokens=16000,
...

설정	Opus 4.8	Fable 5
`thinking` 생략	사고를 끄고 실행	adaptive로 실행
`thinking: {type: "disabled"}`	수용됨	400 에러
`thinking: {type: "adaptive"}`	adaptive	adaptive (써도 동일)
`budget_tokens`	400 에러	400 에러 (동일)

실질적인 피해가 발생하기 쉬운 것은 첫 번째 줄이다. Opus 4.8에서 사고를 끄고 운영하던 워크로드(workload)는 ID만 교체해도 사고 토큰이 발생하기 시작한다. max_tokens는 사고와 본문을 합친 총합에 적용되는 상한선이므로, 재검토하지 않으면 본문이 도중에 끊길 수 있다.

가공되지 않은 사고 과정은 반환되지 않음

raw chain-of-thought는 일절 반환되지 않는다. thinking.display의 기본값은 `

는 400, 어시스턴트 prefill은 400. 대응 기능은 effort / Task budgets (beta) / memory tool / context editing (beta) / compaction / vision.

refusal 및 fallback — Fable의 최대 구현 포인트

이 부분이 기존 모델과 근본적으로 다르다. Fable 5는 안전 분류기 (safety classifier)를 내장하여 해당 요청을 거부한다. 그리고 거부는 에러가 아니라 HTTP 200 정상 응답으로 반환된다.

거부 응답의 형태

{
"model": "claude-fable-5",
"content": [],
...

stop_details.category가 분류기를 나타낸다.

category	대상	주의
`cyber`	멀웨어·익스플로잇 개발 등	양성 보안 업무도 오반응할 수 있음
`bio`	위험한 실험 기법 등	유익한 라이프 사이언스도 오반응할 수 있음
`reasoning_extraction`	내부 추론을 응답 본문에 재현하도록 하는 요구	"사고 과정을 보여줘" 계열의 지시가 걸림

category / explanation는 null이 될 수 있다 (이름이 지정된 카테고리에 해당하지 않는 거부. 영구적인 정상값). 판정은 stop_reason == "refusal"로 수행하며, stop_details에는 의존하지 않는다.

과금은 합리적이며, 출력 전 거부는 과금되지 않고 Rate Limit (속도 제한)도 소비되지 않는다. 스트림 도중의 거부는 입력 및 출력된 토큰이 과금되며, 부분 출력은 폐기된다.

서버 사이드 폴백 (server-side fallback) (beta)

거부된 요청은 통상 다른 Claude 모델이라면 응답할 수 있다. 가장 간단한 방법은 API에 재시도 (retry)를 맡기는 방식이다.

from anthropic import Anthropic
client = Anthropic()
response = client.beta.messages.create(
...

Fable이 거부하면, API가 동일한 요청 내에서 Opus 4.8을 실행하여 반환한다. 한 번의 왕복으로 완결되며, 응답의 model 필드가 실제로 응답한 모델을 나타낸다. 경계에는 fallback 콘텐츠 블록 ({"type": "fallback", "from": ..., "to": ...})이 포함되며, usage.iterations에 시도별 기록이 남는다.

몇 가지 규칙이 있다.

폴백 대상은 최대 3개이며 중복될 수 없다. 지정 가능한 모델은 Models API의 allowed_fallback_models를 통해 공개된다.
발동 조건은 분류기에 의한 거부뿐이다. Rate Limit (속도 제한), 과부하, 서버 에러는 그대로 반환된다.
beta 헤더는 server-side-fallback-2026-06-01 날짜와 완전히 일치해야 한다.
Batch API에서는 사용할 수 없다. Bedrock / Vertex / Foundry에서도 사용할 수 없다 (후술할 클라이언트 사이드에서 대체).
한 번 폴백된 대화는 약 1시간 동안 처음부터 폴백 대상으로 직행한다 (sticky routing. 불필요한 거부 왕복 방지).
과금은 "실제로 동작한 모델의 단가로 시도마다" 이루어진다. 출력 전에 거부된 시도는 과금되지 않는다.

클라이언트 사이드 (SDK 미들웨어)

TypeScript / Python / Go / Java / C# SDK에는 refusal-fallback 미들웨어가 있어, 클라이언트 구축 시 한 번 설정하면 client.beta.messages를 통한 호출이 모든 플랫폼에서 자동으로 재시도된다.

from anthropic import Anthropic, BetaFallbackState, BetaRefusalFallbackMiddleware
client = Anthropic(
middleware=[BetaRefusalFallbackMiddleware([{"model": "claude-opus-4-8"}])],
...

thinking 블록의 제거나 fallback 블록의 관리도 미들웨어가 처리한다. Ruby / PHP는 미지원하므로, stop_reason

를 보고 수동으로 재시도한다 (fallback credit을 병용하면 캐시 재작성 비용이 환불된다). 서버 사이드와 미들웨어가 동일한 작업을 수행하므로, 동일한 요청에 두 가지를 모두 설정하지 않는다.

운영상의 함정

공식에서 언급하는 주의사항 중 모니터링 관련 사항은 특히 유용하다.

거절(Refusal)은 HTTP 200이므로, 에러율 모니터링에는 전혀 나타나지 않는다. 거절 이벤트와 폴백(fallback) 성공 이벤트를 개별적으로 측정하고, 두 값의 차이에 알람을 설정한다.
fallbacks 파라미터는 서브 에이전트의 모델 호출로 전파되지 않는다. 도구 실행(tool execution) 내부에서 API를 호출하는 구성에서는, 해당 호출에도 개별적으로 폴백을 설정해야 한다. 재시도 예산(retry budget)은 '턴(turn) 단위'가 아니라 '요청(request) 단위'로 산정한다. 에이전트 + 서브 에이전트 구성에서는 한 턴에 여러 번의 거절이 발생할 수 있다.
폴백 대상이 속도 제한(rate limit) 중이라면 거절이 그대로 반환된다. 거절량을 예상하여 폴백 대상의 속도 제한 할당량을 확보해 두어야 한다.

프롬프팅 — Opus 4.8로부터의 행동 차이

공식 Fable 전용 프롬프팅 가이드에서 실무에 유용한 순서대로 정리한다.

턴이 길어지는 것을 전제로 하네스(harness)를 수정하기

높은 노력(high effort) 모드에서는 한 번의 요청이 몇 분, 자율 실행(autonomous run)은 몇 시간까지 늘어난다. 이것이 이관 시 가장 먼저 맞닥뜨리게 될 변화라고 공식에서도 명시하고 있다. 클라이언트의 타임아웃, 스트리밍, 진행 상황 표시를 먼저 조정하고, 긴 실행은 블로킹(blocking)하지 않고 비동기(스케줄링 작업 등)로 확인하는 구성으로 변경한다.

지시 이행 능력이 강력함 — 오래된 프롬프트를 정리하기

행동을 나열하여 제약할 필요가 줄어들고, 간결한 한 문장으로 제어할 수 있다. 반대로, 기존 모델에 맞춰 정교하게 만들어진 과도하게 규범적인 스킬이나 지시는 품질을 저하시킬 수 있으므로, 기본 성능이 좋다면 삭제한다. 이관 시에는 프롬프트 자산을 정리하는 과정을 겸하는 것이 좋다.

높은 노력(high effort) 시의 경향과 공식 권장 대책 (요지):

경향	대책 예시 (요지)
모호한 태스크에서 과도한 계획	"행동할 수 있는 정보가 갖춰지면 행동한다. 확정된 사실을 재도출하지 않는다."
...

reasoning_extraction의 함정

"사고 과정을 응답에 써달라" 계열의 지시는 분류기(classifier)에 걸린다. 기존 스킬이나 시스템 프롬프트에 "show your thinking", "추론을 설명한 뒤 답변해줘"와 같은 지시가 있으면, Fable에서는 거절(refusal) 발생 후 Opus 4.8로의 폴백이 빈번하게 일어나는, 은근히 고통스러운 동작이 발생한다. 추론의 가시화가 필요하다면 adaptive thinking의 구조화된 thinking 블록(display: "summarized")을 읽는다.

서브 에이전트와 메모리

Fable는 기존보다 병렬 서브 에이전트를 더 적극적으로 사용한다. 위임 기준을 명시하고, 블로킹하지 않고 비동기로 돌리면 효과적이다. 또한 과거의 실행(run)으로부터 교훈을 기록하고 참조할 수 있는 환경에서 특히 성능이 잘 나오므로, 마크다운(Markdown) 파일 하나라도 좋으니 메모리 저장소를 제공할 가치가 있다.

이관 체크리스트 (Opus 4.8 → Fable 5)

공식 이관 가이드의 요점. Opus 4.7 이전 버전에서 이관하는 경우, 먼저 4.8까지의 이관 절차(샘플링 파라미터 제거 등)를 완료한 후 진행한다.

모델 ID를 claude-opus-4-8 → claude-fable-5로 변경
thinking: {type: "disabled"}를 삭제 (400 에러 발생). 사고 기능(thinking)을 끈 상태로 운영하던 워크로드는 adaptive가 적용된다는 전제하에 max_tokens를 재점검
stop_reason: "refusal" 핸들링을 추가하고, fallbacks (beta) 또는 SDK 미들웨어를 검토
effort를 재평가 — Opus 4.8에서 xhigh였던 것도 high부터 시작
thinking 블록 처리 확인 (동일 모델로 전달 시에는 그대로 반환, 다른 모델로 교체 시에는 제거)
비용 및 레이턴시(latency) 재기준 설정 (토큰 수는 거의 불변이나, 단가가 2배)
프롬프트 자산 정리 — 과도한 지시 삭제, "사고 과정을 보여달라" 계열의 지시 제거

어떻게 구분해서 사용할 것인가

가격 2배 · 긴 턴 길이 · 거부 핸들링 (refusal handling) 필수라는 추가 비용을 지불할 가치가 있는 것은, 공식적인 표현을 빌리자면 "인간이 몇 시간에서 몇 주에 걸쳐 수행하는 엔드 투 엔드 (end-to-end) 작업"이다. 최상의 결과를 내고 있는 팀들은 가장 난도가 높은 미해결 문제에 이 모델을 할당하고 있으며, 간단한 워크로드(workload)만으로 테스트할 경우 능력 범위를 과소평가하게 된다고 한다.

실무적으로는 다음과 같이 정리할 수 있다.

일상적인 코딩 · 정형화된 에이전트 → Opus 4.8 유지 (비용 절반, 거부 핸들링 불필요)

며칠 규모의 자율 실행 · 단번에 결정지어야 하는 복잡한 구현 · 고밀도 비전 (high-density vision) → Fable 5

보안 · 바이오 계열을 다루는 프로덕트 → Fable은 오작동(false positive) 리스크가 있으므로, 처음부터 폴백 (fallback) 설계를 구축하거나 Opus 4.8에 머무를 것

요약

Fable 5의 본질은 "Opus를 그대로 강화한 모델"이 아니라, 분류기 (classifier)와 폴백 (fallback)을 전제로 한 새로운 운영 계약이 포함된 최상위 티어(tier)다. 구현 측면에서의 변경 사항은 (1) thinking 상시 온(on)을 전제로 한 max_tokens 재검토, (2) refusal 핸들링과 폴백, (3) effort 및 프롬프트의 재조정, 이 세 가지 포인트로 집약된다. 반대로 이 점들만 파악하고 있다면, Messages API와의 호환성이 높아 이전 자체는 가볍다.

부록: 검증 상태

2026년 6월 10일 기준.

항목	상태
모델 ID · 가격 · 컨텍스트 · GA일	공식 확인 (models overview / pricing)
adaptive 상시 온 · `disabled` 400 · display 기본값 omitted	공식 확인 (introducing / migration guide)
refusal 응답 형태 · 3개 카테고리 · 과금 동작	공식 확인 (refusals-and-fallback)
`fallbacks` beta · sticky routing · 미들웨어 대응 언어	공식 확인 (상동)
캐시 최소 512 토큰	공식 확인 (migration guide)
프롬프팅 지침 · 개선 영역	공식 확인 (prompting Claude Fable 5)
Mythos 5 / Project Glasswing의 구조	공식 확인 (introducing)
벤치마크 스코어	제3자 집계 (공식 docs 미게재)
Fast mode 미지원	가격표에 기재되지 않음으로부터 추정

References

Introducing Claude Fable 5 and Claude Mythos 5 — Anthropic
Models overview — Anthropic
Pricing — Anthropic
Refusals and fallback — Anthropic
Migration guide — Anthropic
Prompting Claude Fable 5 — Anthropic
Anthropic releases Claude Fable 5 and Mythos 5 — The Decoder
Claude Fable 5 Benchmark Scores — Weights & Biases
Claude Fable 5 is generally available for GitHub Copilot — GitHub Changelog

Claude Fable 5 — 구현자 관점에서 정리한 Opus 상위의 새로운 티어

요약

핵심 포인트