Anthropic의 Mythos-Class Claude Fable 5, 사이버 보안 폴백 가드레일 탑재
요약
Anthropic은 높은 역량의 'Mythos-class' 모델인 Claude Fable 5를 출시했습니다. 이 모델은 사이버 보안이나 생물학 같은 민감한 주제에 대한 질의가 들어오면 자동으로 성능이 낮은 다른 모델(Claude Opus 4.8)로 폴백하는 안전장치를 탑재했습니다.
핵심 포인트
- Mythos-class Claude Fable 5 출시: 높은 역량을 가진 신규 모델입니다.
- 사이버 보안 등 민감 영역 질의 시 자동 폴백 기능 탑재가 특징입니다.
- 외부 레드팀 테스트 결과, 보편적인 탈옥(jailbreaks)은 발견되지 않았습니다.
포렌식 요약
Anthropic은 높은 역량을 가진 'Mythos-class' 모델인 Claude Fable 5를 출시했습니다. 이 모델은 사이버 보안 및 생물학 같은 민감한 영역을 다루는 질의가 들어올 경우, 자동으로 성능이 낮은 다른 모델(Claude Opus 4.8)로 폴백합니다. 회사는 1,000시간 이상의 외부 레드팀 테스트를 진행했지만, 보편적인 탈옥(jailbreaks)은 발견되지 않았으며, 재정적 동기를 가진 적대자들이 이러한 통제를 우회하려 시도할 것임을 공개적으로 인정했습니다. Project Glasswing에 참여하는 신뢰받는 사이버 보안 파트너들은 전체 Mythos 5 기능에 대한 높은 수준의 접근 권한을 받게 되어, 내부자 위험과 계층적 신뢰 모델 보안에 대한 의문을 제기하고 있습니다.
Grid the Grey에서 전체 기술 심층 분석 기사를 읽어보세요: https://gridthegrey.com/posts/anthropic-s-mythos-class-claude-fable-5-ships-with-cybersecurity-fallback/
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기