
Fable 5가 사라진 날 ─ 지금 정말 쓸 수 있는 최강 LLM은 무엇인가? 【2026년 6월·벤치마크 대조사】
요약
Anthropic의 Claude Fable 5가 출시 직후 수출 관리 지침 문제로 서비스가 중단된 상황에서, 2026년 6월 기준 최적의 대체 LLM을 찾기 위한 벤치마크 분석 가이드를 제공합니다. 단순 수치에 현혹되지 않고 공인 기록과 참고 기록을 구분하여 모델의 실질적 성능을 판단하는 법을 다룹니다.
핵심 포인트
- Claude Fable 5의 갑작스러운 서비스 중단 배경 설명
- 벤치마크 수치의 함정과 공인/참고 기록 구분법
- 현시점 활용 가능한 최강 LLM 선택을 위한 판단 기준 제시
- 수출 규제 등 외부 요인이 모델 가용성에 미치는 영향
이 기사의 대상 독자
-
업무에서 LLM을 사용하고 있으며, Fable 5의 제공 중단으로 대체 모델을 찾고 있는 엔지니어
-
「결국 지금 가장 강력한 모델은 무엇인가?」를 수치와 소스를 통해 알고 싶은 사람
-
벤치마크 (Benchmark) 수치에 번번이 휘둘려 온 사람 (바로 저입니다) orz
-
2026년 6월 시점의 주요 LLM 실력을 1차 정보에 기반한 수치로 파악할 수 있음
-
「SWE-bench Verified 95%」와 같은 화려한 스코어를 맹신하지 않고 읽는 눈을 기를 수 있음
-
용도별로 「지금 바로 사용할 수 있는 최강」을 선택하기 위한 판단 기준을 얻을 수 있음
-
각 모델 API의 구체적인 호출 방법 (별도 기사로 분리 예정)
-
이미지 생성·음성 계열 모델 비교 (텍스트/코딩 용도로 한정)
-
「어떤 모델이 윤리적으로 우수한가」라는 논의
먼저, 이 기체를 관통하는 하나의 비유를 들어 놓겠습니다.
LLM의 벤치마크 (Benchmark) 경쟁은, 육상 경기 기록회라고 생각하면 단번에 흐름이 보입니다. 모델은 선수, 벤치마크는 종목, 스코어는 기록입니다. 그리고 기록에는 동일한 측정 조건에서 낸 「공인 기록」과, 뒷바람의 영향을 받은 참고 기록이나 자기 신고 방식의 「참고 기록」이 있습니다. 이 구분을 모른 채 순위표를 바라보면 반드시 속게 됩니다.
이후의 섹션은 모두 이 기록회 비유를 통해 설명하겠습니다. 그럼 먼저 「무슨 일이 일어났는가」부터 시작합니다.
2026년 6월 9일, Anthropic은 Claude Fable 5를 일반 제공 시작했습니다. Mythos 클래스라는 최상위 티어의, 처음으로 공개된 모델입니다. 각종 벤치마크의 화려한 종목들을 모조리 갈아치우며, 그야말로 「요란한 등장과 함께 우승 후보」로서 기록회에 등장했습니다.
그런데, 불과 3일 후.
2026년 6월 12일, AWS는 수출 관리 지침에 대응하기 위해 Fable 5와 Mythos 5에 대한 액세스를 모든 사용자 대상으로 revoke(취소)했습니다. Anthropic 자신도 제공을 일시 중단하고 있습니다. 즉 오늘(2026년 6월 15일) 시점에서 Fable 5는 달릴 수 없습니다.
1차 정보를 인용합니다.
Anthropic의 공식 스테이트먼트 (원문 해당 부분):
We are suspending access to Claude Fable 5 and Claude Mythos 5.
의역: 「Claude Fable 5 및 Claude Mythos 5에 대한 액세스를 중단합니다」. 이어서 고객에게 끼친 불편에 대해 사과하며, 가능한 한 조속히 액세스를 복구하기 위해 노력하고 있다고 밝히고 있습니다.
AWS의 공지 (요약 + 의역): 미국 정부의 수출 관리 지침 준수(Compliance) 대응으로서, Anthropic이 AWS에 Fable 5와 Mythos 5의 액세스 취소를 요청했다는 내용입니다. 중요한 것은 이 문장 ── Opus 4.8을 포함한 다른 모델은 영향을 받지 않는다. 이 부분이 앞으로 대체 모델을 찾아야 하는 우리에게 가장 큰 단서가 됩니다.
우승 후보가 출전 직후 실격 처리된 기록회. 관객(=우리)은 남은 선수들 중에서 「실제로 시상대에 오를 수 있는 자는 누구인가」를 가려낼 수밖에 없습니다.
여기까지로 「왜 지금 이 화제인가」를 알 수 있었습니다. 다음은 그 순위표를 어떻게 읽을 것인가 ── 기록회의 최대 함정에 관한 이야기입니다.
대체 모델을 찾을 때, 많은 사람은 SWE-bench Verified 순위표를 엽니다. 거기에는 다음과 같이 나열되어 있습니다 (llm-stats 트래커, 2026년 6월, 벤더 측 수치).
| 선수 (모델) | SWE-bench Verified | 출력 단가 | 구분 |
|---|---|---|---|
| Claude Fable 5 | 95.0% | $50 / M | 중단됨 |
| ... |
「95%인가, 역시 Fable 5…… 하지만 중단되었으니, 차순위인 GPT-5.5나 Opus 4.8이겠군」 ── 그렇게 결론 내리고 싶어집니다. 하지만 여기서 기록회 비유가 힘을 발휘합니다.
이 수치의 대부분은 각 진영이 자신의 스타디움에서, 자신의 컨디션으로 낸 기록 ── 즉 뒷바람의 영향을 받은 참고 기록이나 자기 신고 타임에 가깝습니다. 왜냐하면 각 벤더는 자체적인 「발판 (Scaffolding)」, 즉 에이전트의 탐색 도구나 프롬프트(Prompt) 기교를 얹은 상태에서 스코어를 측정하기 때문입니다. 발판은 기록회로 치면 「신발과 코스 컨디션」입니다. 같은 선수라도 이것이 바뀌면 기록은 2포인트 내외로 흔들립니다.
그렇다면 모든 선수를 동일한 조건에서 달리게 한 「공인 기록」은 어떻게 되어 있을까요? Scale사의 SEAL 리더보드 (표준화된 mini-swe-agent 하네스, 동일 조건)를 보면 풍경이 완전히 바뀝니다.
| 선수 (모델) | SWE-bench Pro (표준화·공인 기록) |
|---|---|
| gpt-5.4 | 59.10% |
| ... |
주요 종목의 95%가 동일 조건의 공인 기록에서는 60% 전후까지 떨어집니다. 게다가 Fable 5와 Opus 4.8은 이 공인 기록에 아직 등록조차 되어 있지 않습니다 (2026년 6월 시점). Verified 순위표만 보고 '최강'을 결정하는 것은, 순풍을 탄 참고 기록만 보고 세계 기록을 논하는 것과 같습니다.
morphllm의 분석이 이 괴리를 단적으로 요약하고 있습니다. 표준화 하네스 (Standardized Harness)와 벤더 독자 하네스 (Vendor-specific Harness)의 차이는 10~30포인트이며, 그 대부분은 '모델의 기초 체력'이 아니라 '탐색 및 도구 활용의 질' ── 즉, 발판의 차이라고 말입니다.
여기서 한 가지 수식으로 정리해 두겠습니다. 엔지니어가 정말로 봐야 할 것은 생(raw) 스코어가 아니라, 기록당 비용입니다.
\text{가성비 지표} = \frac{\text{출력 단가} [\$/\mathrm{M\ tokens}]}{\text{벤치마크 정답률} [%]}
이 지표로 보면, 가장 저렴하게 1포인트를 푸는 것은 Claude Haiku 4.5 ($1 / $5)로, 출력 환산 시 약 $0.13/포인트입니다. 화려한 프론티어 모델 (Frontier Model)과는 두 자릿수 차이가 나는 세계입니다. '최강'과 '최적'은 서로 다른 종목이라는 점을 여기서 한 번 짚고 넘어가겠습니다.
순위표를 읽는 법을 알았으니, 다음으로는 '그렇다면 결국 어떤 종목에서 누가 왕자인가'를 정리하겠습니다.
2026년 4월 이후, GPT-5.5 · Opus 4.7/4.8 · Gemini 3.1 Pro가 거의 동시에 등장하며 벤치마크 전쟁은 '결판'이 났습니다. 그 결판이란 단독 왕자의 부재입니다. 종목마다 서로 다른 선수가 시상대 중앙에 서 있습니다.
실제 GitHub Issue를 해결하는 능력에서는 Claude Opus 계열이 한발 앞서 있습니다. Anthropic 자체의 SWE-bench Pro 표에서는 Opus 4.8이 69.2%를 기록했습니다. 4월 시점의 독립 측정에서도 Opus 4.7이 SWE-bench Pro에서 64.3% (GPT-5.5는 58.6%, Gemini 3.1 Pro는 54.2%)를 기록하며 6포인트 전후의 리드를 유지했습니다. 도구의 연계 및 오케스트레이션 (Orchestration)에서도 안정적입니다.
커맨드 라인 (Command Line)에서 계획을 세우고 시행착오를 거치며 달려 나가는 종목은 GPT-5.5의 독무대입니다. Terminal-Bench 2.0에서 82.7% (Opus 4.7은 약 6972%, Gemini 3.1 Pro는 68%), 웹 조사인 BrowseComp에서 90.1%를 기록했습니다. 장문 처리 역시 512K1M 영역에서 36.6% → 74.0%로 배증했습니다. MCP를 통해 도구를 적극적으로 호출하는 용도라면 현재 가장 유력한 후보입니다.
Gemini 3.1 Pro는 기록 그 자체보다 '비용 대비 기록'에서 빛을 발합니다. GPQA Diamond 94.3%라는 학력 테스트 최상위 성적을 출력 $2/M라는 파격적인 가격으로 내놓습니다. 1M 컨텍스트도 네이티브로 지원합니다. 대량 처리나 장문, 이미지가 포함된 용도라면 이곳이 현실적인 왕자입니다.
FrontierMath Tier 4에서 GPT-5.5가 35.4% (GPT-5.5 Pro는 39.6%)를 기록했습니다. Opus 4.7이 22.9%, Gemini 3.1 Pro가 16.7%였으므로, 순수 수학에서는 GPT-5.5가 앞서 있습니다.
데이터를 외부로 유출할 수 없거나 과금을 피하고 싶다면, OSS (오픈 웨이트, Open-weight) 진영이 답이 됩니다. SWE-bench Verified에서 DeepSeek V4-Pro-Max (80.6% · MIT), MiniMax M3 (80.5%), Qwen3.7 Max (80.4%)가 Gemini 3.1 Pro와 0.2포인트 차이까지 육박했습니다. Arena의 오픈 웨이트 1위는 Kimi K2.6 (GPQA 90.5%)입니다. RTX 5090급 GPU와 VRAM 32GB가 있다면, Ollama나 vLLM, llama.cpp를 통해 GGUF 양자화 (Quantization) 버전을 로컬에서 구동하는 것도 현실적인 선택지입니다.
종목마다 왕자가 다르다는 것을 알 수 있었습니다. 그럼 이를 바탕으로 '당신은 누구를 출전시켜야 하는가' ── 즉, 선정의 단계로 들어가겠습니다.
'최강은 누구인가'라는 질문은 기록 대회에서 적절한 질문이 아닙니다. 올바른 질문은 '당신의 종목에서 시상대에 오를 수 있는 사람은 누구인가'입니다. 용도를 기점으로 선택하십시오.
그리고 2026년의 실무적인 최적해는 대개 '단일 모델'이 아닙니다. 기록 대회라기보다는 **이어달리기 (Relay)**에 가깝습니다. 쉬운 구간은 저렴한 OSS 선수에게 맡기고, 난코스만 프론티어 모델에게 맡기는 것입니다. 이것이 라우팅 (Routing)의 개념이며, 단일 프론티어 모델 운용에 비해 60~80%의 비용 절감이 보고되고 있습니다.
Fable 5 중단이라는 이번 사건이 던진 교훈은 바로 이것입니다. 단일 모델에 아키텍처를 밀결합(Tight Coupling)해 두면, 서비스 중단이라는 한 방에 모든 것이 멈춥니다. 폴백 (Fallback) 대상을 처음부터 설계에 포함해 두는 것 ── 이것은 가용성 (Availability)의 문제이며, 특정 벤더의 우열과는 별개의 문제입니다.
선택의 기준이 정해졌습니다. 마지막으로, 지금까지 살펴본 내용 중 빠지기 쉬운 함정들을 표로 정리해 두겠습니다.
| 함정 | 발생하는 현상 | 대처법 |
|---|---|---|
| Verified의 화려한 점수를 그대로 믿음 | 벤더의 자기 신고용 참고 기록으로 의사결정 | 표준화 (Scale SEAL) 공인 기록과 반드시 대조할 것 |
| ... |
함정을 피할 수 있다면, 남은 것은 지식을 체계적으로 쌓아 올리는 것뿐입니다. 학습의 경로를 제시하며 마치겠습니다.
- 초급: 우선 "종목 (Benchmark)"의 의미를 익힌다. SWE-bench는 구현, Arena는 인간의 선호도, GPQA는 학력. 이것들을 혼동하지 않는 것만으로도 속지 않게 됩니다.
- 중급: 같은 점수라도 "어떤 하네스 (Harness)로 측정했는가"에 따라 의미가 달라짐을 이해한다. 이것이 본 기사의 핵심이었습니다.
- 상급: 공개 벤치마크를 벗어나, 자신의 리포지토리 (Repository)에서 작은 평가 (Eval) 환경을 구축한다. 그 위에서 라우팅 (Routing)과 폴백 (Fallback)을 설계하여 비용과 가용성을 양립시킨다.
마지막으로 검증용 최소 라우팅 의사 코드 (Pseudo-code)를 남겨둡니다.
클릭하여 의사 코드 전개 (난이도 기반 모델 라우팅)
# 난이도에 따라 저가형 모델과 프론티어 모델을 구분하여 사용하는 최소 예시
# DRY: 판정과 폴백을 각각 단일 책임 함수로 분리
def estimate_difficulty(task: str) -> str:
...
- Fable 5는 2026년 6월 9일에 GA (General Availability) 되었으나, 수출 관리 명령 대응으로 인해 6월 12일에 제공이 중단되었습니다. 현재 시점에서는 사용할 수 없습니다. Opus 4.8은 영향을 받지 않고 사용할 수 있습니다.
- "SWE-bench Verified 95%"와 같은 화려한 숫자의 대부분은 벤더의 참고 기록입니다. 표준화된 공인 기록으로 보면 풍경이 달라지며, 최신 모델은 아직 등록되지 않은 경우조차 있습니다.
- 종목마다 왕자는 다릅니다. 코딩은 Opus 계열, 에이전트 (Agent)는 GPT-5.5, 가성비·장문·멀티모달 (Multimodal)은 Gemini 3.1 Pro, 로컬은 OSS 진영입니다.
- 2026년의 최적해는 "단일 최강"이 아니라 에키덴 (Ekiden, 이어달리기) 방식의 라우팅입니다. 폴백 (Fallback)을 설계에 포함하는 것이 이번 사건의 가장 큰 교훈입니다.
솔직히 저도 Fable 5의 95%라는 숫자를 본 순간 "이거다" 하고 달려들 뻔했습니다. 하지만 조사하면 할수록 공인 기록과 참고 기록 사이의 간극이 보여서 ( ;゚д゚) 멍해졌던 것이 솔직한 심정입니다. 벤치마크 순위표는 편리하지만, 마지막에 믿을 수 있는 것은 자신의 리포지토리에서 직접 측정한 자신의 기록뿐입니다. 이것이 전부입니다.
-
Claude Fable 5란 무엇인가
-
ClaudeMythos의 위치
-
SWE-bench Verified 읽는 법
-
LLM의 기초
-
vLLM으로 로컬 추론
-
llama.cpp로 로컬 LLM
-
GGUF 양자화 (Quantization)
-
RTX5090으로 AI 개발
-
Anthropic 공식: Claude Fable 5 / Mythos 5 (제공 중단 공지 포함) https://www.anthropic.com/news/claude-fable-5-mythos-5
-
AWS News Blog: Fable 5 on AWS (접근 권한 회수 추가)
https://aws.amazon.com/blogs/aws/anthropic-claude-fable-5-on-aws-mythos-class-capabilities-with-built-in-safeguards-now-available/ -
Anthropic API Docs: Claude Fable 5 및 Claude Mythos 5 소개
https://platform.claude.com/docs/en/about-claude/models/introducing-claude-fable-5-and-claude-mythos-5 -
TechCrunch: Fable 5 출시
https://techcrunch.com/2026/06/09/anthropics-claude-fable-5-is-a-version-of-mythos-the-public-can-access-today/ -
llm-stats: SWE-bench 검증 리더보드
https://llm-stats.com/benchmarks/swe-bench-verified -
morphllm: SWE-bench Pro / 코딩을 위한 최고의 AI 모델 (공인 기록 및 가성비 분석)
https://www.morphllm.com/swe-bench-pro
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기