Fable 5인가 아니면 빈약한 5인가? Claude의 새로운 안전 필터는 우스꽝스럽다
요약
Anthropic의 새로운 모델 Claude Fable 5의 안전 분류기(safety classifiers)가 과도하게 작동하여 발생하는 거짓 양성(False Positive) 문제를 다룹니다. 사이버 보안과 생물학적 위험을 차단하려는 의도가 풀드 포크 레시피나 스네이크 게임 같은 무해한 요청까지 차단하는 부작용을 보이고 있습니다.
핵심 포인트
- Claude Fable 5는 성능은 뛰어나나 안전 필터의 오작동 사례가 보고됨
- 위험 프롬프트 감지 시 이전 모델인 Claude Opus 4.8로 조용히 전달하는 방식 채택
- 풀드 포크, 양 RNA 데이터, 스네이크 게임 등이 보안 위험으로 오분류됨
- Anthropic은 전체 세션의 5% 미만에서만 트리거된다고 주장함
Pulled Pork 레시피와 스네이크 게임이 Claude Fable의 안전 기능에 의해 차단되고 있다는 사실을 알고 계셨나요? 이에 대해서는 기사 후반부에서 논의하겠습니다.
Claude Fable 5는 현재까지 만들어진 가장 유능한 AI 모델이며, 거의 모든 벤치마크에서 일반적으로 1위를 차지하고 있습니다. 더 많은 정보를 원하신다면, Avidclan Technologies의 블로그에서 Project Glasswing부터 출시 당일까지의 전체 Claude Fable 5 타임라인을 이미 다루고 있습니다. 하지만 오늘 이 블로그에서는 생물 무기 합성 및 사이버 공격을 차단하기 위해 설계되었으나, 현재는... 풀드 포크(pulled pork)를 차단하고 있는 안전 분류기(safety classifiers)에 대해 논의해 보겠습니다.
Fable 5 vs Mythos 5, 간단히 말해 차이점이 무엇인가요?
빠른 맥락 설명: Fable 5는 Claude Mythos 5의 자식이라고 말할 수 있습니다. 그렇다면 이 Mythos 5는 무엇일까요? Anthropic에 따르면, 이는 Anthropic이 검증된 사이버 방어 파트너에게만 제한적으로 허용하는 소프트웨어 취약점을 찾아낼 수 있는 시스템입니다. Anthropic은 공개 버전을 출시하기 위해 4가지 카테고리를 모니터링하는 2단계 분류기(two-stage classifiers)를 장착했습니다. 그 4가지 카테고리는 사이버 보안(cybersecurity), 생물학(biology), 화학(chemistry), 그리고 모델 증류(model distillation)이며, 이 증류된 모델이 바로 Fable 5입니다* (이것은 Anthropic의 주장이며, 저희의 의견이 아닙)*
주목해야 할 점: Fable 5는 플래그(flagged)된 프롬프트를 거부하지 않습니다. 대신 사용자의 요청을 이전 플래그십 모델인 Claude Opus 4.8로 조용히 전달하며, 대신 그 모델이 답변을 합니다. 사용자는 알림을 받게 되고 대화는 계속 이어지며, 아무도 벽에 부딪히는 경험을 하지 않습니다.
Anthropic은 "이 기능은 세션의 5% 미만에서 트리거되며, 사이버 공격 계획에 대한 30가지 공개 탈옥(jailbreaks) 사례에 대해 Fable 5가 단 한 번도 (차단된) 컴파일을 수행하지 않았다"라고 말합니다.
서류상으로는 우아해 보이지 않나요? 하지만 실제로는요? 세상에...
Claude Fable 5가 틀린 답을 줄 수 있나요? 네, 거짓 양성(False Positive) 사례입니다.
다음은 출시 후 첫 이틀 동안 기록된 실제 문서화된 사례들입니다:
Costco 쇼핑 목록. 한 사용자가 풀드 포크(pulled pork) 샌드위치의 1인분 양을 물어봤습니다. 생물학/사이버 보안(cybersecurity) 우려 사항으로 분류되었습니다.
양(Sheep) RNA 데이터. 양의 RNA 시퀀싱(RNA sequencing) 데이터를 다루던 연구자가 생물 보안(biosecurity) 위험으로 차단되었습니다. 양의 의견은 묻지 않았습니다.
스네이크(Snake) 게임. 1997년 노키아(Nokia)의 클래식 게임입니다. "사이버 보안 문제"로 분류되었습니다.
"hi"라고 말하기. 네, 정말입니다. 모델에게 인사를 건넨 것이 적어도 한 명의 사용자에게는 성능 저하(downgrade)를 유발했습니다.
프로젝트 디렉토리 읽기. Claude에게 로컬 파일을 살펴보라고 요청한 것이 차단되었습니다.
소프트웨어 마이그레이션(migration) 계획. protobuf에서 다시 C-소스 TCP 네트워킹 설정으로 전환하는 계획입니다. 보아하니 너무 "매콤한(spicy)" 주제였나 봅니다.
교차 도메인(cross-domain) 과학 대화. 한 사용자는 모델이 교차 도메인 지식이 어떻게 통합 이론을 만드는지에 대해 논의하던 중 문장 중간에 말문을 막아버렸으며, 자신의 생각을 위험한 것으로 스스로 분류했다고 보고했습니다.
개인적인 의료 질문. 생물학 주제로 차단되었습니다. 이 사례는 웃기지 않습니다. 유용성에 있어 실질적인 해악입니다.
필터 자체에 대해 질문하기. 안전 시스템에 대한 메타 질문(meta-questions)? 이 또한 차단되었습니다. 카프카적(Kafkaesque)입니다.
Claude Fable 5에 대한 유튜버의 리뷰
YouTube 리뷰어들 또한 Claude Fable 5에 대해 동일한 리뷰를 남겼습니다.
Bijan Bowen은 Fable 5에게 "현재 네트워크 환경에 대한 정보를 보여줄 수 있는 10가지 화이트 햇(white hat) 도구"를 포함한 브라우저-OS Python 게임을 만들어 달라고 요청했습니다. 즉시 Opus 4.8로 성능이 저하되었습니다. 화이트 햇. 방어적 도구. 차단되었습니다. 하지만 나중에 동일한 Fable 5가
만약 OpenRouter와 같은 애그리게이터 (Aggregator) 서비스를 통해 Fable 5와 같은 프리미엄 AI 모델에 접속한다면, 더 교묘한 수법을 마주하게 될 것입니다. 해당 버전이 기술적 문제나 높은 트래픽을 겪을 경우, 명확한 경고 없이 자동으로 더 오래되고 저렴한 모델(Opus 4.8 등)로 다운그레이드할 수 있습니다. 여러분은 세션의 절반 동안 자신이 Opus 4.8과 대화하고 있다는 사실조차 모른 채 대화를 이어갈 수도 있습니다.
왜 이런 일이 발생하는가? (솔직한 답변)
핵심은 이렇습니다. 이것은 무능함 때문이 아닙니다. 의도적으로 조절된 설정값입니다.
2026년 1월 Anthropic의 분류기 (Classifier) 연구에 따르면, 그들의 두 시스템은 무해한 질의에 대한 오탐지 (False refusal)를 0.05%까지 낮출 수 있었습니다. 하지만 Fable 5 모델은 OpenBSD에서 27년 된 원격 크래시 취약점 (Remote-crash vulnerability)을 찾아내고 작동 가능한 브라우저 샌드박스 탈출 (Browser sandbox escape) 코드를 작성했던 바로 그 모델입니다. 최악의 시나리오, 즉 온라인상의 익명 사용자들에게 위험한 해킹 도구를 실수로 제공하게 되는 상황을 방지하기 위해, Anthropic은 파멸적인 유출의 위험을 감수하기보다 무해한 요청을 차단하는 것이 더 안전하다고 결정했습니다.
Anthropic은 초기 보안 필터를 믿을 수 없을 정도로 민감하고 즉각 반응하도록 의도적으로 설정했습니다. 그들은 백업 플랜을 처리하는 방식 때문에 이 필터가 안전한 요청을 차단하는 것(오탐지, False positives)을 허용합니다. 시스템은 에러 메시지와 함께 답변을 완전히 거부하는 대신, 플래그 (Flag)가 지정된 프롬프트를 조용히 더 오래되고 성능이 낮은 모델(Opus 4.8)로 라우팅 (Routing)하여 응답을 생성합니다. Anthropic의 입장에서는, 잘못된 작동으로 인해 사용자에게 단 한 번의 응답 동안 약간 약한 모델을 제공하는 비용이 발생할 뿐입니다. 하지만 사용자의 입장에서는 페라리 값을 지불했는데, 경고도 없이 작년 모델인 렉서스 열쇠를 계속 건네받고 있는 셈입니다.
Anthropic은 초기 보안 필터를 믿을 수 없을 정도로 민감하고 즉각 반응하도록 의도적으로 설정했습니다.
실제로 할 수 있는 대응책
코드 보안, 네트워킹, 의학, 또는 습식 실험 과학 (Wet-lab science)과 관련된 모든 내용에 대해서는 폴백 (Fallback)을 예상하십시오 — 설령 그것이 무해한 버전이라 할지라도 말입니다. 가능한 경우 우회하여 질문하십시오.
다운그레이드 알림을 주시하십시오, 특히 알림이 숨겨져 있을 수 있는 제3자 도구(Third-party tools)를 사용할 때 더욱 주의가 필요합니다.
의료/바이오 관련 질문에는 Opus 4.8을 직접 사용하십시오. 어차피 사용하게 될 모델이며, 번거로운 과정을 건너뛸 수 있습니다.
피드백을 제공하십시오. 이러한 분류기(Classifiers)는 반복적으로 학습됩니다 - 2026년 1월 생성 버전은 이전 버전보다 오탐(False positives)을 87% 줄였습니다. '풀드 포크(Pulled-pork)' 시대가 영원히 지속되지는 않을 것입니다.
AI 기능을 구축하면서 정확히 이런 종류의 예측 불가능한 모델 동작이 걱정되십니까? Avidclan은 사용자가 전혀 싸울 필요가 없는 폴백 처리(Fallback handling)와 가드레일(Guardrails)을 갖춘 AI 통합(Integrations)을 설계합니다. 저희에게 문의하십시오.
좌절스러운 부분은 이러한 필터 아래에 진정으로 역사적인 모델이 자리 잡고 있다는 점입니다. 이 모델은 가공되지 않은 스크린샷만으로 Pokémon FireRed를 이겼으며, FrontierCode에서 이전의 SOTA(State of the art)를 두 배로 뛰어넘었습니다. Fable 5가 무엇을 제대로 해내고 있는지에 대한 전체적인 그림(그리고 여러분이 알아야 할 6월 22일 마감 기한)을 확인하려면, Avidclan의 Fable 5 전체 가이드를 읽어보십시오.
하지만 분류기들이 샌드위치에 대해 진정해질 때까지는? '빈약한 5(Feeble 5)'일 뿐입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기