
속보: Anthropic이 대중에게 공개된 모델 중 가장 강력한 AI 모델을 출시했습니다.
요약
Anthropic이 강력한 성능을 가진 신규 모델 Claude Fable 5를 출시했습니다. 이 모델은 위험한 사용 사례를 차단하는 가드레일이 적용된 버전으로, 소프트웨어 엔지니어링 및 컴퓨터 사용 등 주요 벤치마크에서 경쟁 모델을 압도하는 성능을 보여줍니다.
핵심 포인트
- Claude Fable 5는 Mythos 모델의 가드레일 적용 버전임
- 소프트웨어 엔지니어링 벤치마크에서 80.3% 기록
- 컴퓨터 사용 및 터미널 코딩 분야에서 업계 최고 성능 달성
- Humanity's Last Exam 벤치마크에서 64.5% 기록
속보: Anthropic이 대중에게 공개된 모델 중 가장 강력한 AI 모델을 방금 출시했습니다.
Claude Fable 5는 Anthropic이 출시하기에는 너무 위험하다고 수개월 동안 언급해 온 모델인 Mythos의 중화된 (neutered) 버전입니다.
동일한 기반 모델, 동일한 역량을 갖추고 있습니다. 단지 사이버 보안 취약점 악용 (cybersecurity exploits), 생물 무기 제조 (bioweapon construction), 화학 합성 (chemical synthesis)과 같은 가장 위험한 사용 사례를 차단하는 가드레일 (guardrails)이 적용되었을 뿐입니다.
해당 쿼리들은 자동으로 Opus 4.8로 전환됩니다. 그 외의 모든 기능은 해제되어 있습니다.
벤치마크 (benchmarks)는 이 모델이 얼마나 앞서 있는지를 보여줍니다:
실제 소프트웨어 엔지니어링 (software engineering) 작업에서 Fable 5는 80.3%를 기록했으며, GPT 5.5는 58.6%, Gemini 3.1 Pro는 54.2%를 기록했습니다.
컴퓨터 사용 (computer use) 측면에서 이 모델은 GPT의 78.7%에 맞서 85%를 기록했습니다.
터미널 코딩 (terminal coding)에서는 GPT의 83.4%, Gemini의 70.7%에 맞서 88%를 기록했습니다.
현존하는 가장 어려운 AI 벤치마크로 널리 알려진 Humanity's Last Exam에서 이 모델은 64.5%를 기록했으며, GPT 5.5는 52.2%, Gemini는 51.4%를 기록했습니다.
특히 사이버 보안 (cybersecurity) 분야에서 Fable 5는 78%를 기록했는데, 이는 사실 가드레일이 적용된 제한된 공개 버전임에도 불구하고 달성한 수치입니다.
Glasswing 파트너들에게만 제공되는 제한 없는 Mythos 5는 더 어려운 버전의 테스트에서 가드레일 없이 동일한 벤치마크에서 69%를 기록했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: Benchmark의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기