본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 10. 11:20

Claude Fable 5 vs Opus 4.8 vs GPT-5.5: SWE-Bench, 가격, 전환 시점

요약

Anthropic의 신규 모델 Claude Fable 5가 출시되어 SWE-bench에서 압도적인 성능을 기록했습니다. GPT-5.5 및 Opus 4.8과의 벤치마크 성능, 가격, 비용 효율성을 비교 분석하여 사용자의 목적에 맞는 모델 전환 가이드를 제공합니다.

핵심 포인트

  • Claude Fable 5는 SWE-bench Verified에서 95.0%의 기록적인 성능 달성
  • GPT-5.5는 Terminal-Bench 2.1 및 에이전트 방식 코딩에 강점
  • Opus 4.8은 가성비와 긴 문맥 검색 측면에서 여전히 우위 유지
  • Fable 5는 높은 성능만큼 Opus 4.8 대비 2배 높은 가격 책정

Claude Fable 5 vs Opus 4.8 vs GPT-5.5: SWE-Bench, Pricing, When to Switch

요약 (TL;DR) — Anthropic은 2026년 6월 9일, 최초로 공개 가능한 Mythos-class 모델인 Claude Fable 5를 출시했습니다. 이 모델은 SWE-bench Verified에서 95.0%, **SWE-bench Pro에서 80.3%**를 기록하며, Opus 4.8보다 11포인트 앞서고 GPT-5.5보다는 21.7포인트 앞서는 성적을 거두었습니다. 가격은 백만 토큰당 $10/$50로, Opus 4.8의 정확히 2배입니다. GPT-5.5는 여전히 Terminal-Bench 2.1(82.7% 대 80.5%)에서 승리하고 있으며, Opus 4.8은 여전히 긴 문맥 검색 (long-context retrieval) 및 가성비 (price-performance) 측면에서 우위를 점하고 있습니다. 업그레이드 여부는 병목 현상이 성능인지 비용인지에 따라 결정됩니다. 아래에서는 실제 수치, 포인트당 비용 계산, 그리고 오늘 바로 적용할 수 있는 의사 결정 트리 (decision tree)를 살펴봅니다.

Fable 5는 SWE-bench Pro에서 80%를 넘고 Verified에서 95%를 돌파한 최초의 공개 모델이지만, 백만 토큰당 $10/$50의 가격으로 인해 SWE-bench 포인트당 비용은 Opus 4.8보다 72% 더 높습니다.

각 모델의 실제 출시 내용

7주 동안 세 차례의 출시가 이어지며 코딩 리더보드 상위권이 재편되었습니다.

GPT-5.5는 2026년 4월 23일 OpenAI의 단일 플래그십 모델로 출시되었습니다. 성능을 위한 Standard/Pro 구분 없이, 비용과 지연 시간 (latency)을 위한 두 가지 인터페이스(GPT-5.5 및 GPT-5.5 Pro)만 제공됩니다. 이번 출시는 Codex CLI와 컴퓨터 사용 (computer use)에 중점을 두었으며, "에이전트 방식의 코딩 (agentic coding)"이 핵심 주제였습니다. GPT-5.5 Instant는 5월 5일 ChatGPT의 기본 모델로 뒤이어 출시되었습니다.

Claude Opus 4.8은 2026년 5월 28일, 4.7과 동일한 $5/$25 가격으로 출시되었습니다. SWE-bench Pro는 64.3%에서 69.2%로, OSWorld-Verified는 83.4%로 상승했습니다. 또한 Artificial Analysis의 독립적인 GDPval-AA 리더보드에 따르면, 실제 경제적 작업 (economic work)에서 GPT-5.5보다 121 Elo 포인트 앞서 있으며, 4.7보다 작업당 출력 토큰 (output tokens)을 35% 적게 사용합니다. 동일한 가격에 더 높은 점수, 더 낮은 비용을 실현했습니다. 저희는 Opus 4.8 리뷰에서 전체 출시 내용을 다루었습니다.

Claude Fable 5는 이 글을 쓰는 시점 기준으로 어제인 2026년 6월 9일에 출시되었습니다. 이는 Anthropic이 이전에 사이버 보안 (cybersecurity) 역량이 광범위한 출시를 하기에는 너무 위험하다고 판단하여 공개를 보류했던 Mythos 클래스 제품군 중 처음으로 일반 공개된 모델입니다. Fable 5는 세 가지 안전 분류기 (safety classifiers)가 상단에 레이어링된 Mythos 모델입니다. 즉, 쿼리가 사이버 보안, 생물학/화학, 또는 증류 (distillation) 패턴에 해당할 경우, 요청은 자동으로 Opus 4.8로 라우팅됩니다. 가격은 $10/$50로, Anthropic이 Mythos Preview에 책정했던 가격의 절반이지만, 여전히 Opus 4.8의 2배입니다.

핵심은 Anthropic이 2주 만에 두 개의 모델을 출시했다는 것이 아닙니다. *성능 리더 (capability leader)*와 가치 리더 (value leader) 사이의 격차가 더 벌어졌으며, 이제 그 두 모델 모두 Claude라는 점입니다.

SWE-bench 비교 분석

코딩 벤치마크 (benchmarks)는 노이즈가 많습니다. SWE-bench Verified와 SWE-bench Pro는 유지 관리자(maintainer)가 채점한 정답(ground truth)을 바탕으로 실제 GitHub 이슈를 엔드 투 엔드 (end-to-end)로 실행하기 때문에, 프로덕션 결정을 내릴 때 가장 중요한 두 가지 지표입니다. 세 모델의 비교 결과는 다음과 같습니다:

벤치마크Fable 5Opus 4.8GPT-5.5
SWE-bench Verified95.0%88.6%
...

위 표에서 헤드라인 수치보다 더 중요한 세 가지 요소가 있습니다.

Every의 Senior Engineer 벤치마크는 성능 한계 (capability ceiling)를 파악할 수 있는 가장 깨끗한 지표입니다. Every는 시니어 엔지니어가 해결하는 데 업무일 기준 하루가 걸릴 법한 가장 어려운 코딩 문제들을 사용하여 이 테스트를 실행합니다. 100점 만점에 91점을 기록한 Fable 5는 이 테스트를 치른 인간 엔지니어들의 범위에 속합니다. 63점을 기록한 Opus 4.8과 62점을 기록한 GPT-5.5는 사실상 동등한 수준이며, 둘 다 "디버거를 사용하는 주니어 엔지니어" 범위에 머물러 있습니다. 이 테스트에서 Fable 5와 Opus 4.8 사이의 28점 차이는 — 만약 당신의 업무가 그 성능 한계 지점에서 이루어진다면 — 가격 프리미엄을 정당화하는 격차입니다.

Terminal-Bench는 GPT-5.5가 여전히 승리하는 유일한 지점이며, 여기에 붙은 별표(*)가 중요합니다. GPT-5.5는 82.7%를 기록하며 Fable 5의 80.5%를 앞섰습니다. 근소한 차이지만 실질적인 리드(lead)입니다. 여기서 별표(*)의 의미는 다음과 같습니다. GPT-5.5의 점수는 터미널 작업에 대해 OpenAI의 가장 강력한 에이전트 인터페이스(agentic surface)인 Codex CLI를 통해 도출되었습니다. 반면 Fable 5의 수치는 표준 하네스(standard harness) 환경에서의 모델 성능입니다. Codex CLI 환경에서 GPT-5.5는 실제 워크플로우에 통합될 수 있는 2개월의 시간을 가졌습니다. 만약 당신의 스택이 이미 Codex 중심적이라면, "Fable로 전환하라"는 조언은 공짜 업그레이드가 아닙니다. 우리는 Codex CLI 설정에서 이러한 트레이드오프(trade-off)를 자세히 분석합니다.

Long-context retrieval(긴 문맥 검색)은 Claude 제품군이 복리로 격차를 벌리고 있는 우위 요소입니다. 1M 토큰 규모의 GraphWalks BFS 벤치마크에서 Opus 4.8은 68.1%를 기록한 반면, GPT-5.5는 45.4%에 그쳤습니다. 이 22.7점의 차이는 실제 환경에서 "에이전트가 12번째 턴에서 일어난 일을 실제로 기억한다"는 결과로 이어집니다. Anthropic은 Fable 5의 GraphWalks 점수를 직접 공개하지 않았지만, 긴 문맥 아키텍처(long-context architecture)를 공유하므로 백만 토큰 검색에서 GPT-5.5와의 격차는 거의 확실히 유지될 것입니다.

가격, 그리고 "벤치마크 포인트당 비용"이 실제로 의미하는 것

표시 가격(Sticker pricing)은 명확합니다. 흥미로운 수치는 각 모델이 1달러당 무엇을 돌려주느냐 하는 것입니다.

모델입력 ($/M)출력 ($/M)혼합(Blended) (2:1)*SWE-bench Pro 포인트당 비용
Claude Fable 5$10.00$50.00$23.33~$0.62
...
*혼합(Blended)은 코딩 워크로드에서 전형적인 2:1의 입력 대비 출력 토큰 비율(입력 컨텍스트가 출력 코드보다 많음)을 가정합니다. ofox.ai 라우팅은 마진 없이 동일한 토큰당 요율을 적용합니다.

SWE-bench Pro 포인트당 비용은 대부분의 팀이 가장 신경 써야 할 지표입니다. 왜냐하면 에이전트 기반 코딩 트래픽을 확장할 때 당신이 받게 될 월간 청구서의 모습이기 때문입니다. Fable 5의 $0.62는 Opus 4.8의 $0.36보다 포인트당 72% 더 비쌉니다. GPT-5.5는 그 사이인 $0.50에 위치합니다. 절대적인 능력 면에서는 두 Claude 모델 모두에게 뒤처지지만, Fable 5보다는 포인트당 비용이 저렴합니다.

Fable 5를 단순히 사치스러운 모델로 치부하기 전에, 계산 결과를 Fable 5에 유리하게 만드는 두 가지 조정 사항이 있습니다:

Fable 5는 더 적은 턴(turn) 수로 동일한 작업을 완료합니다. Anthropic이 보고하고 독립적인 실행을 통해 확인된 수치에 따르면, 에이전트 기반 스프레드시트 및 코드베이스(codebase) 작업에서 Fable 5는 Opus 4.8보다 약 25~30% 적은 턴 수로 작업을 수행합니다. 만약 귀하의 병목 현상이 출력 토큰(output token) 양에 있다면 — 긴 자율 실행(autonomous runs) 시 흔히 발생하는 문제 — 이 효율성은 2배의 요금 체계를 부분적으로 상쇄합니다. Opus 4.8은 이미 4.7보다 출력 토큰을 35% 적게 사용하며, Fable 5는 이를 더욱 밀어붙입니다.

가장 어려운 상위 10~20% 구간에서는 성능의 한계(capability ceiling)가 실재합니다. 만약 귀하의 팀이 현재 겪고 있는 에스컬레이션(escalation) 패턴이 "Opus 4.8이 세 번의 실패 후 인간에게 작업을 넘긴다"라면, 이러한 핸드오프(handoff)를 Fable 5로 라우팅(routing)하는 대신 수행함으로써 인간의 개입(human in the loop) 없이 작업을 완료할 수도 있습니다. 이 경우 비용 문제는 "어떤 모델이 토큰당 더 저렴한가"가 아니라 "어떤 모델이 시니어 엔지니어를 루프에서 제외할 수 있는가"로 바뀝니다. 이러한 비교는 대개 Fable 5의 가격대에서 그 가치를 증명합니다.

귀하의 워크로드(workload)에 대해 라우팅 계산을 직접 테스트해 보세요. ofox.ai를 통해, 단일 OpenAI 호환 엔드포인트(endpoint)에서 오늘 바로 Opus 4.8과 GPT-5.5를 사용할 수 있으며 (Fable 5는 곧 도입 예정), 세 모델 모두에 동일한 프롬프트를 실행하여 업그레이드를 결정하기 전에 귀하의 워크로드에 대한 토큰 수와 품질을 비교해 볼 수 있습니다.

전환 시점: 의사결정 트리

올바른 질문은 "어떤 모델이 승리하는가"가 아닙니다 — Fable 5가 대부분의 벤치마크에서 승리합니다. 올바른 질문은 "어떤 모델이 나의 작업과 청구서에서 승리하는가"입니다. 다음은 발표된 수치를 방어 가능한 선택으로 연결하는 라우팅 로직입니다.

1. 귀하의 주요 워크로드가 장기적 에이전트 코딩(long-horizon agentic coding, 수 시간 단위의 실행, 코드베이스 전반의 마이그레이션)인 경우. Fable 5를 사용하십시오. 시니어 엔지니어(Senior Engineer) 벤치마크, FrontierCode Diamond 선두 유지, 그리고 25~30%의 턴(turn) 감소 효과는 모두 장기 실행 시 복리로 작용합니다. 가격 프리미엄은 낭비되는 턴의 감소와 인간 에스컬레이션의 감소로 상쇄됩니다. 코딩을 위한 최고의 AI 모델은 이러한 규모에서 작동하는 라우팅 패턴을 통해 그 가치를 보여줍니다.

2. 주요 워크로드(Workload)가 터미널 기반의 CLI 작업, 운영 자동화(Ops automation), 또는 이미 Codex CLI를 사용 중인 경우. GPT-5.5를 사용하세요. Terminal-Bench 2.1은 세 모델 중 GPT-5.5가 앞서는 유일한 벤치마크이며, Codex 중심의 워크플로우에서 나타나는 격차는 단순한 벤치마크 노이즈가 아닌 실제적인 차이입니다. 통합(Integration) 측면에서의 7주간의 선점 효과가 여기서 중요하게 작용합니다.

3. 주요 워크로드가 그 외 모든 것 — 리팩토링(Refactors), 코드 리뷰(Code review), 대규모 일일 에이전트 루프(Daily agent loops)인 경우. Opus 4.8을 사용하세요. Opus 4.7과 동일한 $5/$25 가격 체계를 유지하며, GDPval-AA 실무 리더보드(Leaderboard) 최상단에 위치하고, 이전 세대보다 출력 토큰(Output tokens)이 35% 적습니다. 80%의 팀에게 이것이 2026년의 정답이며, 워크로드가 성능 한계치(Capability ceiling)를 넘어설 때까지 정답으로 유지될 것입니다.

4. 백만 토큰 규모의 컨텍스트 검색(Context retrieval)이 필요한 경우 (법률 검토, 코드베이스 감사, 긴 전사 데이터 등). Opus 4.8을 사용하세요 (비용을 감당할 수 있다면 Fable 5도 가능합니다). 1M 토큰 환경의 GraphWalks BFS에서 GPT-5.5가 기록한 45.4%라는 수치는 탈락 사유가 되는 수치입니다. 이는 모델이 약 200K 토큰 이후의 사실을 더 이상 안정적으로 찾아내지 못함을 의미합니다. 현재 그 정도 규모에서 성능을 유지하는 아키텍처(Architecture)는 Claude 제품군이 유일합니다.

5. Fable 5를 사용할 때 거부(Refusals)가 발생하거나 Opus 4.8로 라우팅되는 경우. 이는 버그가 아닌 예상된 동작입니다. Anthropic에 따르면 Fable 5의 세 가지 안전 분류기(Safety classifiers: 사이버 보안, 생물학/화학, 증류 시도)는 세션당 약 5%에서 작동하며, 폴백(Fallback)은 암묵적으로 이루어집니다 — 즉, 요청은 어차피 Opus 4.8에서 실행됩니다. 만약 귀하의 워크로드가 이 세 가지 영역(보안 연구, 바이오테크, 모델 학습 파이프라인) 중 하나에 해당한다면, 분류기를 우회하도록 설계하려 하지 마세요. 그냥 Opus 4.8을 직접 호출하여 간접 단계(Indirection)를 건너뛰십시오.

새로운 수치들을 통해 더 이상 유효하지 않게 된 단 하나의 라우팅 (Routing) 패턴은 다음과 같습니다: "Opus는 일상적인 작업용(Daily driver)으로, GPT-5.5는 수학 및 긴 컨텍스트(Long context)용으로 사용한다." 이 논리는 5월까지는 사실이었습니다. 하지만 GraphWalks가 긴 컨텍스트의 격차를 줄였습니다. Opus 4.8은 수학 격차를 해소했습니다 (USAMO 2026 점수가 Opus 4.7의 69.3%에서 4.8의 96.7%로 급등했습니다). 만약 오늘날 수학이나 긴 컨텍스트 작업을 GPT-5.5로 라우팅하고 있다면, 더 나쁜 결과를 얻으면서 출력 토큰(Output token)당 더 많은 비용을 지불하고 있는 것입니다.

ofox.ai를 통해 접속하는 방법

세 모델 모두 단일 OpenAI 호환 엔드포인트(Endpoint)에 배치되어 있으므로, "하나의 모델 사용"에서 "세 모델 모두 테스트"로 업그레이드하는 경로는 기본 URL(Base URL) 하나만 변경하면 됩니다.

from openai import OpenAI

client = OpenAI(
...

Opus 4.8과 GPT-5.5는 현재 ofox.ai의 anthropic/claude-opus-4-8openai/gpt-5.5에서 실시간으로 사용 가능합니다. Fable 5는 현재 애그리게이터(Aggregator)에 순차적으로 도입되고 있습니다 — 실시간 ID는 모델 페이지나 변경 로그(Changelog)를 확인하십시오. 하나의 키로 세 모델 모두를 사용할 수 있으며, 애그리게이터를 통하면 성능 대비 비용(Capability vs. cost) 문제를 경험적으로 답변하기가 더 쉬워집니다: 동일한 프롬프트, 세 가지 모델, 하나의 엔드포인트, 그리고 귀하의 트래픽에 대한 실제 수치를 확인할 수 있습니다.

Anthropic 네이티브 기능(적응형 사고(Adaptive thinking), Opus 4.8의 노력 제어(Effort control))을 사용하려면, 대신 공식 Anthropic SDK를 https://api.ofox.ai/anthropic으로 지정하십시오. 저희는 "왜 LLM API 게이트웨이를 사용하는가"에서 두 프로토콜을 모두 다룹니다.

결론

Fable 5는 새로운 성능의 천장(Capability ceiling)입니다. Opus 4.8은 새로운 가치의 바닥(Value floor)입니다. GPT-5.5는 여전히 하나의 중요한 벤치마크(Benchmark)에서 승리하는 생태계 중심의 선택(Ecosystem play)입니다.

만약 2026년에 에이전트 기반 코딩(Agentic coding)을 프로덕션에 배포할 계획이라면, 마이그레이션(Migration) 경로는 더 이상 "하나를 골라 바로 가는 것"이 아닙니다. 기본적으로 Opus 4.8로 라우팅하고, 가장 어려운 10~20%의 작업은 Fable 5로 에스컬레이션(Escalate)하며, 통합 우위를 점하고 있는 Codex CLI 워크플로우에는 GPT-5.5를 유지하십시오. 포인트당 비용(Cost-per-point) 계산을 해보면, 초기 수천 건의 요청 내에서 라우팅 복잡성을 감수할 가치가 충분합니다.

변하지 않은 단 한 가지는, 독립적인 리더보드(Leaderboards)가 여전히 벤더(Vendor)의 주장보다 더 정확하다는 점입니다. Fable 5가 출시되면 실제 작업에서의 Elo 점수를 확인하기 위해 Artificial Analysis의 GDPval-AA를 주시하십시오. 벤치마크 제품군 외부에서 발생하는 25~30%의 턴(Turn) 감소 효과가 2배의 가격표를 정당화할 수 있는지 알려주는 지표는 바로 그 숫자일 것입니다.

원문은 ofox.ai/blog에 처음 게시되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0