Claude Fable 5 vs Opus 4.8: 신화적 기대와 현실의 만남

수개월 동안 Anthropic에서 가장 흥미로운 모델은 우리가 사용할 수 없는 모델이었습니다. Mythos는 회사가 출시하기에는 너무 유능하다고 언급했던 내부 시스템으로, 자체적인 안전 임계값(safety thresholds)을 위반할 수준의 소프트웨어 취약점을 찾아내는 모델이었습니다. 2026년 6월 9일, 해당 등급이 Claude Fable 5라는 이름으로 처음 공개되었습니다. 프로덕션 코딩 에이전트(coding agents)의 중심축이었던 Opus 4.8은 갑자기 그보다 한 단계 높은 성능 등급을 가진 후계자를 맞이하게 되었습니다.

이는 코딩 에이전트를 운영하는 모든 이들에게 두 가지 질문을 던집니다. 실무적인 질문은 여러분의 에이전트 군단(fleet)을 Opus 4.8에서 Fable 5로 옮겨야 하는가 하는 점입니다. 더 큰 질문은 Anthropic이 출시하기에 너무 유능하다며 붙잡아 두었던 Mythos급 모델이 그 이름이 약속한 바를 충족하는가 하는 점입니다. 이 글은 두 질문 모두에 답하며, 수치 데이터는 발표 내용보다 더 흥미로운 이야기를 들려줍니다.

우리는 두 모델을 동일한 평가 과정에 통과시켰습니다. 약 1,000개의 공유 시나리오를 각각 두 번씩 점수화했는데, 한 번은 기술(skill)을 제공하지 않은 상태로, 다른 한 번은 관련 기술을 컨텍스트(context)에 포함한 상태로 진행했습니다. 2026년 중반 기준으로 짧게 답변하자면, 대부분의 에이전트 군단에게는 여전히 Opus 4.8이 더 나은 가성비를 제공하며, Mythos에 대한 기대와 측정된 현실 사이의 격차가 데이터가 보여주는 진짜 핵심입니다.

Mythos급 모델은 성능 면에서 Opus급보다 상위에 위치하는 Claude의 등급입니다. 이 등급은 Anthropic이 특히 소프트웨어 취약점을 발견하고 악용하는 측면에서 고위험(high-risk)으로 간주하는 임계값에 도달합니다. Fable 5와 Mythos 5는 동일한 역량을 가진 동일한 기반 모델입니다. 이 둘을 구분 짓는 것은 안전 장치(safeguards)입니다. Fable 5는 안전 분류기(safety classifiers)와 함께 출시되는 공개 버전인 반면, 승인된 파트너에게만 제한적으로 제공되는 Mythos 5는 이러한 장치 없이 작동합니다.

업계가 Mythos급 모델에 기대했던 것

출시 전, 추측은 노골적이었습니다. Reddit, X, 그리고 일련의 설명 게시물들을 통해 Mythos는 단순히 답변을 얼마나 잘하느냐가 아니라, 에이전트가 작동하는 방식 자체를 바꿀 모델로 프레임화되었습니다. 반복되는 예측들은 네 가지 역량에 집중되었습니다:

하나의 일관된 패스(pass)로 대규모 코드베이스를 재구성하는 것.
숙련된 엔지니어도 놓치는 보안 결함을 찾아내는 것.
단일한 어려운 문제에 대해 몇 시간 동안 감독 없이 작업하는 것.
한 단계씩 유도해야 하는 어시스턴트가 아니라, 협업자처럼 행동하는 것.

이 네 가지 중 사이버 보안(cybersecurity)에 대한 주장은 확실한 근거를 뒷받침하고 있었습니다. Project Glasswing을 통해 Mythos Preview 액세스 권한을 가진 약 50개의 초기 파트너들은 10,000개 이상의 높음(high) 또는 심각(critical) 수준의 취약점을 발견했다고 보고했으며, 이 프로그램은 이후 150개 이상의 조직으로 확장되었습니다. Anthropic의 CPO인 Mike Krieger는 이를 "우리가 구축한 시스템 중 가장 유능한 클래스"라고 불렀습니다. 그것이 바로 그 이름이 팔았던 꿈이었습니다. 실험실에 머물러 있을 만큼 강력한 모델 말입니다.

대중에게 공개된 것은 더 좁은 범위이며, 의도적으로 그렇게 설계되었습니다. 실제로 사용할 수 있는 모델은 안전 분류기(safety classifiers)로 감싸진 Mythos급 시스템인 Fable 5입니다. 이것이 약속을 이행할 수 있을지는 그 약속과 출시된 제품 사이의 간극에 달려 있습니다.

주요 수치: Claude Fable 5 vs Opus 4.8

평가의 모든 시나리오는 발표된 기술(skill)과 연결된 실제 에이전트 작업이며, 두 가지 축을 기준으로 점수가 매겨집니다: 지시 이행(instruction-following, 에이전트가 지시받은 대로, 지시받은 방식대로 수행하는가)과 작업 완료(task-completion, 목표에 도달하는가). 전체 점수는 지시 이행에 4, 작업 완료에 3의 가중치를 부여한 후 7로 나눕니다. 각 작업은 해당 기술을 사용할 때와 사용하지 않을 때 모두 실행되므로, 기술을 통한 성능 향상(lift)을 직접 확인할 수 있습니다. 작업과 기술은 task-evals-for-skills 데이터셋에 공개되어 있으므로, 사용자가 직접 모든 시나리오를 검토할 수 있습니다.

이러한 설계는 의도적입니다. 작업들은 발표된 기술에서 가져왔으므로, 모델의 한계를 찾기 위한 최첨단 퍼즐이 아니라 팀들이 실제로 기술을 작성하는 실제 업무를 반영합니다. 이것이 두 모델 모두에서 작업 완료(task-completion) 점수가 높게 나오는 이유이며, 두 모델을 구분 짓는 신호가 지시 이행(instruction-following), 즉 기술이 요구하는 특정 방식으로 작업을 수행하는 능력인 이유입니다.

차원 (기술 포함)	Fable 5	Opus 4.8
종합 점수	92.9	92.0
...
두 모델이 실행한 917개의 시나리오에서, Fable 5는 종합 점수에서 0.9점(92.9 대 92.0) 차이로 앞서고 있습니다. 2점 임계값(threshold)을 기준으로 시나리오별로 살펴보면, 두 모델은 61%의 작업에서 동점을 기록했고, Fable이 24% 승리했으며, Opus가 16% 승리했습니다. Opus보다 높은 성능 계층(capability class)을 보여주지만, 일상적인 에이전트 기술(agent skill) 작업에서의 품질 차이는 오차 범위(noise) 내에 있습니다.

이 수치 아래에는 한 가지 주의사항이 있습니다. 917개는 두 모델 모두 완료하고 점수를 매긴 작업들입니다. Fable 5는 Opus 4.8이 완료한 작업 중 26개를 거부했으며, 우리는 이를 제외했습니다. 따라서 이 근소한 차이는 Fable이 수행하기로 동의한 작업들에 대해서만 측정된 것입니다. 이 제외 과정이 이번 비교에서 가장 시사하는 바가 크며, 이에 대해서는 아래에서 다시 다루겠습니다.

모델 업그레이드보다 에이전트 기술 평가가 더 중요한 이유

이 비교의 틀을 재구성하는 수치는 다음과 같습니다. 기술(skill)은 두 모델 모두에게 종합적으로 약 17점을 추가해 줍니다: Fable 5의 경우 +17.2점, Opus 4.8의 경우 +17.5점입니다. 반면 Opus 4.8에서 Fable 5로의 모델 업그레이드는 공유된 작업에서 1점 미만의 차이만을 만들어냅니다. 즉, 당신이 선택한 최첨단(frontier) 계층보다 당신이 제공하는 컨텍스트(context)가 에이전트를 훨씬 더 크게 움직입니다.

이러한 성능 향상은 지시 이행(instruction-following)에 집중되어 있습니다. 이 영역에서 두 모델 모두 기술을 통해 27점 이상의 점수를 얻은 반면, 작업 완료(task-completion) 점수는 5점 미만으로 증가했습니다. 두 모델 모두 보통 스스로 목표에 도달할 수 있습니다. 하지만 기술 없이는 실제 작업이 요구하는 특정 관례(conventions), 제약 조건(constraints), 그리고 단계(steps)를 신뢰성 있게 따를 수 없습니다. 그것이 바로 좋은 기술이 인코딩(encode)하는 것입니다.

기술 수용성 (Skill receptivity)은 관련 기술 (skill)을 제공했을 때 에이전트의 출력이 얼마나 개선되는지를 나타냅니다. 이는 주로 더 나은 지시 이행 (instruction-following) 능력으로 나타납니다. 기술 수용성이 중요한 이유는 이것이 모델 선택의 중요성을 압도할 수 있기 때문이며, 이는 최신 티어 (tier)를 쫓기 전에 에이전트 기술 (agent skills)에 투자해야 하는 실질적인 근거가 됩니다. 동일한 작업을 기술이 있을 때와 없을 때 실행한 후 그 차이를 측정하는 것이 바로 작업 평가 (task eval)입니다. 또한, 모델 업그레이드가 귀하의 워크로드 (workload)에서 그 가격만큼의 가치를 하는지 알 수 있는 유일한 방법이며, 이것이 바로 에이전트 기술 평가 (agent skill evaluation)의 목적입니다.

가격 차이가 대부분의 팀에게 결정적인 요인입니다

우리가 측정한 에이전트 기술 작업에서, 트레이드오프 (trade-off)는 미미한 이득을 위해 막대한 프리미엄을 지불하는 문제로 귀결됩니다. Fable 5의 가격은 입력 토큰 100만 개당 $10, 출력 토큰 100만 개당 $50로 책정되어 있으며, 이는 캐시 읽기 및 쓰기 (cache reads and writes)를 포함한 모든 토큰 카테고리에서 Opus 4.8의 $5 및 $25와 정확히 두 배 차이가 납니다. 그 대가로, 917개의 공유 시나리오 전체에서 Fable 5는 92.9점을 기록하여 Opus 4.8의 92.0점 대비 0.9점의 우위를 보였으나, 이는 두 모델이 서로 대체 가능한 범위 내에 충분히 들어오는 수치입니다. 이것은 일상적인 에이전트 작업의 모습이며, 우리의 평가가 테스트하지 않는 주요 Mythos 기능들에 대한 판결은 아닙니다.

토큰 동작 (Token behavior)이 단위당 가격을 완화해주기는 하지만, 격차를 좁히지는 못합니다. 917개의 공유 시나리오 전체에서 Fable 5는 작업당 출력 토큰을 약 16% 적게 생성했습니다 (9,025개 대 10,687개). 따라서 작업당 실제 비용은 $1.25 대 $0.74가 되어, 정확히 2배가 아닌 73%의 프리미엄이 발생합니다. 기억해야 할 숫자는 가치 격차 (value gap)입니다. Opus 4.8은 1달러당 125점을 돌려주는 반면 Fable 5는 74점을 돌려주며, 이는 지출된 1달러당 약 69% 더 높은 품질을 제공한다는 의미입니다.

단일 세션에서의 차이는 불과 몇 센트에 불과합니다. 하지만 하루에 수천 개의 에이전트 작업을 수행하는 플릿 (fleet)의 경우, 이는 재무 팀이 질문하게 될 항목이 될 것이며, 대부분의 팀이 실제로 실행하는 작업에서 1점 미만의 품질 차이를 위해 두 배의 가격을 지불하는 것은 그들에게 내놓기 쉬운 답변이 아닙니다.

Fable은 Opus가 문제없이 완료하는 작업을 거부합니다

Fable 5와 Opus 4.8 사이의 가장 중대한 차이점은 점수판(scoreboard)에 나타나지 않습니다. 그것은 Mythos 클래스를 정의하는 안전 계층 (safety layer)입니다.

Fable 5는 사이버 보안 (cybersecurity), 생물학 및 화학 (biology and chemistry), 증류 (distillation), 그리고 프런티어 LLM 개발 (frontier LLM development)이라는 네 가지 영역을 다루는 보호 장치와 함께 출시됩니다. 처음 세 가지 영역의 경우, 트리거된 요청은 거부 (refusal)로 돌아옵니다. Anthropic의 설계는 이를 Opus 4.8로 넘기고 사용자에게 알리지만, 해당 폴백 (fallback)은 기본값이 아닌 선택 사항 (opt-in)이므로, 저희가 사용하는 것과 같은 기본 하네스 (stock harness) 환경에서는 차단된 요청이 단순히 거부되었습니다.

네 번째 영역은 이번 테스트 과정에서 다르게 작동했습니다. Anthropic의 자체 문서에 따르면, 프런티어 AI 개발에 접촉하는 요청은 거부되거나 심지어 플래그 (flagged) 처리되지도 않았습니다. 대신 모델은 사용자에게 아무런 알림 없이 조용히 답변을 유도하거나 미세 조정 (fine-tuned)했습니다. 이러한 조용한 조작은 가장 날카로운 반발을 불러일으켰으며, 이번 테스트 다음 날인 6월 11일, Anthropic은 해당 제한 사항이 "지나치게 보수적"이었음을 인정하면서 다른 세 영역처럼 가시적인 분류기 (visible classifier)로 전환했습니다. 거부 반응을 전혀 생성하지 않았기 때문에, 해당 영역은 저희 수치에 아무런 흔적을 남기지 않았습니다. 어떠한 영향이 있더라도 단지 조용히 약해진 답변으로만 나타날 뿐입니다.

Mythos 클래스 모델은 설계상 일부 요청을 더 약한 모델로 라우팅 (route)하므로, 사용자의 하네스는 모든 응답이 Fable로부터 왔다고 신뢰하기보다는 폴백 (fallback)을 감지할 수 있어야 합니다. 그리고 영향을 받는 영역은 바로 여러분이 직접 확인하고 싶어 하는 영역과 정확히 일치하며, 이것이 컨텍스트 거버넌스 및 보안 (context governance and security)의 실질적인 이점입니다. 즉, 성능 저하 (regression)를 운영 환경이 아닌 평가 (eval) 단계에서 포착하는 것입니다.

저희 테스트 결과는 이것이 어떻게 나타나는지 보여주는데, 결코 좋지 않습니다. Fable 5는 시도한 약 940개의 작업 중 26개를 거부하여 작업을 수행하는 대신 사용 정책 차단(usage-policy block)과 거부 이유를 반환했습니다. 반면 Opus 4.8은 모든 작업을 완료하고 점수를 매겼습니다. Fable이 거부한 부분이 핵심입니다. 그중 네 개는

데이터가 보여주는 것은 일반적인 사용 환경에서 Fable의 추가적인 능력이 어디에서 나타나는가 하는 점입니다. 기술(skill)을 소유한 조직별로 그룹화했을 때, Fable 5는 웹 조사(web-research) 및 스크래핑(scraping) 워크로드에서 앞서 나갑니다: Apify (+7.8 전체), Google Gemini (+4.6), Tavily (+3.4), 그리고 Firecrawl (+2.7). 만약 당신의 에이전트(agents)가 오픈 웹(open web)에서 데이터를 가져오고(fetch), 매핑(map)하며, 추출(extract)한다면, Fable 5가 더 강력한 선택지입니다. 반면 Fable이 퇴보하는 지점에서는 Opus 4.8이 자리를 지킵니다: Mastra (-7.3), Auth0 (-4.5), 그리고 Axiom (-2.5).

따라서 자율적인 협업자(autonomous collaborator)라는 Mythos의 꿈은 대부분의 팀이 첫날부터 구매하게 될 대상은 아닙니다. 그들이 구매하게 될 것은 지시 이행(instruction-following) 능력이 미세하게 더 뛰어나고, 웹 조사 능력이 유의미하게 더 좋으며, 가격은 두 배이고, 때때로 분류기(classifiers)에 의해 작업을 어차피 Opus 4.8로 넘겨버리는 모델입니다.

각각을 언제 사용해야 하는가

대규모로 코딩 에이전트(coding-agent) 플릿(fleet)을 운영하며 작업당 비용을 중요하게 생각한다면 Opus 4.8을 선택하십시오. 대부분의 워크로드에서 품질 차이는 오차 범위 내에 있으며, Opus는 달러당 훨씬 더 많은 점수를 반환하고, 설계 시 고려해야 할 폴백 레이어(fallback layer)가 없습니다.

에이전트가 헤비한 웹 조사 및 스크래핑을 수행하거나, 장기적 과제(long-horizon tasks)에 대한 추론 깊이(reasoning depth)가 필요하거나, Opus 이상의 능력 계층(capability class)으로부터 진정으로 이득을 얻는 워크로드를 가지고 있다면 Fable 5를 선택하십시오. 작업당 약 73%의 프리미엄을 예산에 반영하고, 첫날부터 당신의 하네스(harness)에 폴백 탐지(fallback detection) 기능을 구축하십시오. 만약 당신의 작업이 분류기 도메인(classifier domains)에 해당한다면, 모델을 신뢰하기 전에 해당 모델이 조용히 Opus 4.8로 라우팅(routing)하고 있지는 않은지 확인하십시오.