Claude Fable 5 및 Claude Mythos 5

The number five composed of several butterflies

업데이트
Claude Mythos 5 및 Fable 5 접속 불가

2026년 6월 12일

Claude Fable 5 및 Claude Mythos 5에 대한 접속을 일시 중단합니다. 고객 여러분께 불편을 드려 죄송하며, 가능한 한 빨리 접속을 복구하기 위해 노력하고 있습니다.

더 읽어보기

오늘 우리는 일반적인 사용이 가능하도록 안전하게 제작된 Mythos급1 모델인 Claude Fable 5를 출시합니다.

Fable 5의 역량은 우리가 지금까지 일반 공개한 그 어떤 모델의 성능도 능가합니다. 이는 AI 역량에 관한 거의 모든 테스트 벤치마크(benchmarks)에서 최첨단(state-of-the-art) 수준이며, 소프트웨어 엔지니어링 (software engineering), 지식 노동 (knowledge work), 시각 (vision), 과학 연구 (scientific research) 및 기타 여러 분야에서 탁월한 성능을 보여줍니다. 작업이 더 길고 복잡할수록, Fable 5가 우리의 다른 모델들보다 앞서 나가는 격차는 더 커집니다.

이토록 뛰어난 역량을 가진 모델을 출시하는 데에는 위험이 따릅니다. 안전장치가 없다면 사이버 보안 (cybersecurity)과 같은 분야에서 Fable 5의 역량이 심각한 피해를 입히는 데 오용될 수 있습니다. 따라서 우리는 일부 주제에 대한 질의에 대해 우리의 차세대 최상위 모델인 Claude Opus 4.8이 대신 응답하도록 하는 안전장치와 함께 모델을 출시했습니다. 모델을 안전하면서도 빠르게 출시하기 위해 우리는 이러한 안전장치를 보수적으로 조정했습니다. 이로 인해 때때로 무해한 요청이 차단될 수도 있지만, 평균적으로 세션의 5% 미만에서 작동합니다. 향후 몇 달 안에 더 뛰어난 모델들이 출시됨에 따라, 우리는 안전장치를 개선하고 오탐 (false positives)을 최대한 빨리 줄이기 위해 노력하고 있습니다.

사이버 방어자 (cyberdefenders) 및 인프라 제공업체로 구성된 소규모 그룹을 위해, 우리는 Claude Mythos 5도 함께 출시합니다. 이는 Fable 5와 동일한 기반 모델이지만, 일부 분야에서 안전장치가 해제되어 있습니다.2 Mythos 5는 초기에는 미국 정부와의 협력을 통해 Project Glasswing을 통해 Claude Mythos Preview의 업그레이드 버전으로 배포될 예정입니다. 이는 전 세계 어떤 모델보다 강력한 사이버 보안 역량을 보유하고 있습니다. 조만간 우리는 더 광범위한 신뢰할 수 있는 액세스 프로그램 (trusted access program)을 통해 Mythos 5에 대한 접근 권한을 확대할 계획입니다.

Fable 5 및 Mythos 5와 같은 모델의 역량은 세상에 깊은 선한 영향력을 미칠 잠재력을 가지고 있습니다. 우리는 Project Glasswing에서 그 시작을 목격했으며, 여기서 모델들은 사이버 방어자들이 매우 중요한 소프트웨어를 보호하는 데 도움을 주었습니다. 또한 생명 과학 (life sciences) 연구에서도 모델들이 새로운 가설을 제시하고 새로운 치료제 개발을 가속화하는 것을 확인했습니다.

Fable 5와 Mythos 5는 입력 토큰 100만 개당 10달러, 출력 토큰 100만 개당 50달러에 제공되며, 이는 Claude Mythos Preview 가격의 절반 미만입니다. 오늘의 공동 출시는 가능한 한 빠르고 안전하게, 최대한 많은 사용자에게 고급 AI 역량을 제공하려는 우리의 목표를 향한 또 다른 단계입니다.

Claude Fable 5 및 Claude Mythos 5 평가

아래 표는 Fable 5 및 Mythos 5의 역량을 다른 주요 모델들과 비교한 것입니다.

Benchmark table showing Claude Fable and Mythos compared to other leading models

Fable 5와 Mythos 5는 이전의 어떤 Claude 모델보다 더 오랫동안 자율적으로 작동할 수 있습니다. 아래에서는 이러한 기술이 소프트웨어 엔지니어링 (software engineering)에 어떻게 적용되는지 논의하고, 지식 노동 (knowledge work), 시각 (vision), 메모리 (memory), 그리고 생명 과학 연구 분야에서 향상된 모델의 역량을 다룹니다.

*소프트웨어 엔지니어링 (Software engineering). 초기 테스트 기간 동안 Stripe는 Fable 5가 몇 달 분량의 엔지니어링 작업을 며칠 만에 압축하여 완료했다고 보고했습니다. 5,000만 줄 규모의 Ruby 코드베이스에서, 이 모델은 팀 전체가 수작업으로 수행했을 경우 2개월 이상 걸렸을 코드베이스 전반의 마이그레이션 (migration)을 단 하루 만에 수행했습니다. Fable 5는 또한 이전 Claude 모델들보다 토큰 효율성 (token-efficient)이 높습니다. 모델이 고품질 프로덕션 코드베이스의 표준을 충족하면서 어려운 코딩 작업을 통과할 수 있는지 테스트하는 Cognition의 FrontierCode 평가에서, Fable 5는 중간 정도의 노력 (medium effort) 수준에서도 프런티어 모델들 중 가장 높은 점수를 기록했습니다.

지식 노동 (Knowledge work). Fable 5는 복잡한 분석 작업에서 강력한 성능을 보여줍니다. 시니어 수준의 추론을 위한 Hebbia의 금융 벤치마크 (Finance Benchmark)에서 Fable 5는 문서 기반 추론, 차트 및 표 해석, 문제 해결 능력에서 상당한 향상을 보이며 모든 모델 중 가장 높은 점수를 기록했습니다. IMC는 Fable 5가 사실 확인 (factual lookup), 개념적 추론 (conceptual reasoning), 근본 원인 분석 (root-cause analysis), 기대 가치 분석 (expected-value analysis)을 포함하여 자신들의 트레이딩 분석 평가를 거의 전 영역에서 완벽하게 수행했다고 언급했습니다.

시각 (Vision). Fable 5는 시각 관련 작업에서 새로운 최첨단 (state-of-the-art) 모델입니다. 상세한 과학적 도표에서 정확한 수치를 추출할 수 있으며, 스크린샷만으로 웹 앱의 소스 코드를 재구축하는 것과 같은 복잡한 시각 기반 작업을 수행할 수 있습니다. 또한 더 적은 스캐폴딩 (scaffolding)을 필요로 합니다. 예를 들어, 이전 Claude 모델들은 추가적인 유용한 도구를 제공하는 하네스 (harnesses)가 있음에도 포켓몬스터 파이어레드 (Pokémon FireRed)를 플레이하는 데 어려움을 겪었지만, Fable 5는 최소한의 시각 전용 하네스만으로 파이어레드를 이겼습니다.

메모리 및 긴 컨텍스트 (Memory and long-context). Fable 5는 장기 실행 작업에서 수백만 토큰에 걸쳐 집중력을 유지하며, 자체 메모 (notes)를 사용하여 출력을 개선합니다. 모델이 덱 빌딩 게임인 Slay the Spire를 플레이하게 했을 때, 지속적인 파일 기반 메모리에 접근할 수 있도록 제공하자 Opus 4.8보다 성능이 3배 더 향상되었습니다. 또한 Fable은 게임의 최종 막에 도달하는 빈도도 3배 더 높았습니다.

신약 설계 (Drug design): Mythos 5를 사용하여, 당사의 내부 단백질 설계 전문가들은 신약 설계 프로세스의 일부 측면을 약 10배 가량 가속화했습니다. 한 사례에서, 단백질 설계 및 생물정보학 (bioinformatics) 도구를 갖추고 인간의 도움 없이 작동하는 Mythos 5가 숙련된 인간 운영자와 대등하거나 그들을 능가한다는 것을 발견했습니다. 이 과정에서 모델은 결합 부위 (binding sites) 선택, 단백질 설계 도구 선택 및 실행, 진행 과정에서의 실패 복구 등 통상적으로 과학자가 완료하는 모든 작업을 수행합니다. 이 연구의 단백질 타겟 14개 중 9개(아래 표시)에서 신약 설계를 위한 강력한 후보 물질을 도출했으며, 현재 이를 조사 중입니다.

분자 생물학에서의 새로운 가설 (Novel hypotheses in molecular biology). Mythos 5는 새롭고 설득력 있는 과학적 가설을 일관되게 생성하는 당사의 첫 번째 모델입니다. Opus급 모델들과의 블라인드 헤드 투 헤드 (head-to-head) 비교에서, 당사의 과학자들은 약 80%의 확률로 Mythos의 분자 생물학 가설을 선호했으며, 그중 여러 가설을 실험적 평가 단계로 발전시켰습니다. 그 사이, E. coli 단백질에 대한 새로운 메커니즘을 다룬 하나의 Mythos 가설은 동일한 문제를 독립적으로 연구하던 실험실의 연구를 통해 입증되었습니다.

유전체학에서의 새로운 연구 (Novel research in genomics). **Mythos 5는 상당 부분 자율적으로 수행된 일주일 이상의 작업을 통해 새로운 유전체학 (genomics) 연구를 수행했습니다. Mythos 5는 138종의 동물에 걸친 수백만 개 세포의 단일 세포 (single-cell) 데이터를 수집하였으며, 멀리 떨어진 연관성을 가진 유기체에서도 동일한 역할을 수행하는 세포를 식별하기 위해 맞춤형 머신러닝 (machine learning) 모델을 설계하고 학습시켰습니다. 인간의 고수준 입력만으로, Mythos 5의 학습된 모델은 크기가 100배 더 작음에도 불구하고 학술지 Science에 발표된 최신 모델보다 뛰어난 성능을 보였습니다. 당사는 향후 몇 달 내에 이러한 결과를 발표할 예정입니다.

정렬 (Alignment). 자동화된 정렬 (alignment) 평가에서, Mythos 5의 정렬되지 않은 행동 수준(기만 및 사용자에 의한 모델 오용 협력 등 모델이 취하는 정렬되지 않은 행동 포함)은 낮았으며, 이는 Opus 4.8과 유사했습니다. 이들이 동일한 기반 모델임을 고려할 때, Fable 5의 정렬 수준도 유사할 것입니다. 해당 평가는 모델의 시스템 카드 (system card)에 기타 안전성 및 역량 테스트의 상세 세트와 함께 전체적으로 설명되어 있습니다.

Claude Fable 5에 대한 초기 피드백

사전 액세스 권한을 가진 고객들은 Fable 5에 대해 자체적인 테스트를 진행했습니다. 아래는 그들이 경험한 내용 중 일부를 그들의 표현을 빌려 정리한 것입니다:

"Claude Fable 5는 CursorBench에서 최첨단 (state of the art) 모델입니다. 이전 모델들이 도달할 수 없었던 장기적 관점 (long-horizon)의 문제들을 해결할 수 있게 해주었습니다."

Claude Fable 5는 개발자들의 GitHub 서비스에 있어 진정한 진보입니다. 초기 테스트 결과, 이 모델은 이전 벤치마크를 뛰어넘는 자율성과 신뢰성을 바탕으로 복잡하고 장기적인 (long-horizon) 코딩 작업들을 수행했습니다. 하지만 우리를 가장 설레게 하는 것은 이 모델이 가리키는 방향입니다. 즉, 개발자가 점점 더 야심 찬 작업들을 에이전트 (agents)에게 맡기고, 소프트웨어 생명 주기 (software lifecycle) 전반에 걸쳐 그 결과를 신뢰할 수 있는 미래입니다.

이것은 우리가 테스트할 기회를 가졌던 그 어떤 Claude 모델보다도 강력한 결과입니다. Claude Fable 5는 에이전트 기반 코딩 (agentic coding) 및 프로토타이핑 (prototyping) 분야에서 명확한 진전을 보여줍니다.

Claude Fable 5의 추론 (reasoning) 능력은 Opus 4.8을 명확히 넘어섭니다. 이 모델은 방향을 설정하고, 자원을 할당하며, 잘못된 믿음을 스스로 수정하고, 새로운 제1원리 (first-principles) 기반의 결과물을 생성하는 등 시니어 연구 과학자 (senior research scientist) 수준으로 작동합니다.

Claude Fable 5는 제작자들이 단순히 입력하는 내용뿐만 아니라, 그들이 의도하는 바를 이해합니다. 1년 전에는 백 번의 프롬프트 (prompts)가 필요했던 앱을 이제는 단 한 번의 시도 (one-shots)로 만들어냅니다. 고객이 정말로 한계에 부딪혔을 때, 우리가 그들을 빠르게 돌파하여 원래 목표했던 것을 완성할 수 있도록 돕기 위해 찾는 모델이 바로 이것입니다.

Claude Fable 5는 실질적으로 다르게 느껴집니다. 블라인드 리뷰 (blind review)에서 우리 변호사들은 이 모델의 레드라인 (redlines)이 우리의 현재 모델과 일치하거나 매번 능가한다는 것을 확인했습니다.

최고 수준의 노력을 기울일 때, Claude Fable 5는 자신의 작업물을 스스로 성찰하고 검증합니다. 우리에게 있어 이것이 바로 고도의 자율적 운영 (highly autonomous operations)을 가능하게 하는 요소입니다. 추가적인 사고 과정 (extra thinking)이 그 가치를 충분히 증명하기 때문입니다.

Claude Fable 5는 이전 모델들보다 더 적은 턴 (turns)으로 더 유능한 엔지니어링을 제공하며, 우리 직원들이 Claude Code에서 매일 실행하는 복잡한 멀티 에이전트 워크플로우 (multi-agent workflows)를 처리합니다.

Claude Fable 5는 Cognition의 프런티어 코딩 평가 지표인 FrontierBench에서 가장 높은 점수를 기록한 모델입니다. 이 모델은 장기적 추론 (long-horizon reasoning)에 탁월하며, 익숙하지 않은 도구들에 대해서도 즉각적으로 일반화 (generalizes)하여 적용할 수 있습니다.

Claude Fable 5는 우리가 테스트한 모델 중 일반 금융 및 추론 모두에서 가장 강력한 금융 우선 (finance-first) 모델입니다. 이는 주목할 만한 도약입니다.

Claude Fable 5는 복잡하고 장기적인 분석 작업(long-running analytical tasks)을 다루는 당사의 핵심 분석 벤치마크에서 최초로 90%를 돌파했으며, 이는 Opus 대비 10포인트 상승한 수치입니다. 가장 어려운 질문들에 대해 Claude Fable 5는 강력한 판단력과 미묘한 차이(nuance)에 대한 주의력을 보여줍니다.

Claude Fable 5는 추론 토큰(reasoning tokens)을 3분의 1만 사용하면서도 최첨단(frontier) 물리학 연구 분야에서 우리가 테스트한 모델 중 가장 강력한 성능을 보였습니다. 36시간 만에 GPT-5.5가 4일 후에 도달한 지점에 거의 근접했습니다.

당사의 엔드 투 엔드(end-to-end) 바이브 코딩(vibe-coding) 벤치마크인 ViBench에서 Claude Fable 5는 우리가 테스트한 모델 중 가장 높은 성능을 기록했습니다. 당사의 기본 사용 사례(base use cases)를 거의 포화 상태로 충족하며, 더 적은 토큰으로 더 짧은 시간 안에 앱을 구축합니다.

Claude Fable 5는 모든 노력 수준(effort level)에서 당사의 일상적인 스프레드시트 제품군(spreadsheet suite)에 대해 Opus 4.8을 능가하며, 더 적은 턴(turns) 수로 25~30% 더 빠르게 작업을 완료합니다.

Claude Fable 5의 새로운 안전 장치 (safeguards)

Mythos급 모델들은 상당한 위험을 초래할 수 있는 임계점에 도달했습니다. 지난 4월, 우리는 Project Glasswing을 시작하여 첫 번째 Mythos급 모델(Claude Mythos Preview)을 제한된 사이버 방어자 및 핵심 소프트웨어 인프라 제공업체 그룹에만 공개했습니다. 당시 우리는 오용을 확실히 방지할 수 있을 만큼 강력한 새로운 안전 장치(safeguards)를 개발하는 한, 궁극적으로 Mythos급 역량을 모든 사용자에게 공개하기를 희망한다고 밝혔습니다.

지난 몇 달 동안 우리는 이러한 안전 장치를 개선해 왔으며, 이제 일반 공개를 할 수 있을 만큼 견고해졌습니다. 우리는 안전을 우선시했기 때문에 의도적으로 안전 장치를 신중하게 조정했으며, 이는 여전히 이상적인 수준보다 엄격합니다. 예를 들어, 때때로 무해한 요청이 우리의 분류기(classifiers)를 작동시킬 수 있습니다. 우리는 이것이 일부 사용자에게 답답함을 줄 수 있음을 인지하고 있으며, 출시 후 안전 장치를 업데이트하고 개선함에 따라 오탐(false positives)을 줄이는 것을 목표로 하고 있습니다.

아래에서는 Fable 5의 각 새로운 안전 장치에 대해 차례로 논의합니다. 당사의 더 광범위한 안전 장치 세트는 해당 모델의 시스템 카드(system card)와 최신 위험 보고서(risk report)에서 논의되고 평가됩니다.

Claude Fable 5 및 Claude Mythos 5

요약

핵심 포인트

Claude Fable 5 및 Claude Mythos 5

Claude Fable 5 및 Claude Mythos 5 평가

Claude Fable 5에 대한 초기 피드백

Claude Fable 5의 새로운 안전 장치 (safeguards)

댓글