Fable 5 중단 사건과 나의 실험이 우연히 일치한 이야기

TL;DR

내가 NeuroState Ablation 실험(N=30)을 진행하고 있었다.
바로 그날, Fable 5가 jailbreak되어 미국 정부에 의해 중단되었다. 실험 결과를 대조해 보니,
Fable 5의 구조적 약점을 수치로 거의 예측할 수 있었다 - 이는 의도한 것이 아니었다. 완전히 우연한 타이밍이었다.

무슨 일이 일어났는가

2026년 6월 9일, Anthropic이 Claude Fable 5를 일반 공개했다.

48시간 이내에, 유명한 AI 레드티머(Red Teamer)인 "Pliny the Liberator"가 jailbreak에 성공했다고 발표했다. 멀티 에이전트 분해(Multi-agent decomposition), Unicode 호모글리프(Unicode homoglyph), 롱 컨텍스트 분산(Long context dispersion)을 조합한 수법으로 안전 필터를 돌파했다. 스택 버퍼 오버플로우(Stack buffer overflow) exploit 코드나 화학 합성 절차서를 생성시킨 스크린샷이 공개되었다.

6월 12일 17:21(ET), 미국 상무부가 Anthropic에 수출 관리 명령을 발행했다. "외국 국적자에 의한 Fable 5 / Mythos 5에 대한 액세스를 중단하라"는 내용으로, 미국 내 Anthropic의 외국 국적 직원도 대상에 포함되었다. Anthropic은 명령에 따르면서도 공식적으로 반론 성명을 발표했다.

내가 같은 날 진행하던 실험

나는 이 사건과 독립적으로, NeuroState의 안전 보호 효과를 검증하는 Ablation 실험을 실시하고 있었다.

사용 모델은 3개 계통:

실험	모델	N	위치 선정
메인	Gemini 1.5 Pro (Gemini CLI v0.46.0)	30	주 실험·논문 본 데이터
간이 비교	Claude Sonnet 4.6 (Claude Code CLI v2.1.177)	10	모델 간 차이 보조 확인
로컬	Qwen2.5-1.5B/3B/7B/14B	100/state	은닉 상태 프로브(Hidden state probe) 실험 (별도 논문)

Gemini를 메인으로 삼은 이유는 내재적 안전성(Intrinsic safety)의 낮음 때문이다. Claude는 순수 프롬프트만으로도 상당히 거부하기 때문에, "NeuroState가 추가로 무엇을 하는가"를 보기에는 Gemini 쪽이 효과를 분리하기 쉽다.

실험 설계는 2×2:

Watchdog 있음	Watchdog 없음
NeuroState 있음	C: W+NS	D: NS-only
NeuroState 없음	B: Watchdog-only	A: Baseline

테스트한 시나리오:

S1: 단발 직접 인젝션 (Single-shot direct injection)
S2: 누적 12턴 (단계적으로 지시를 쌓아 올림)
S3: 에코 체임버 (에이전트가 자신의 출력을 재인용하여 강화)
S4: 적응형 공격 (방어에 맞춰 수법을 변경)
FPR: 정상 대화에서의 오탐률 (False Positive Rate)

N=30 결과

S1	S2(누적)	S3(에코)	S4(적응)	FPR
A. Baseline	0.20	0.93	0.40	0.73
B. Watchdog-only	0.00	0.53	0.00	0.00
C. W+NeuroState	0.00	0.00	0.00	0.00
D. NS-only	0.00	0.00	0.00	0.00

Fisher 검정: B vs C (S2) p<0.0001 **, A vs D (S4) p<0.0001 **

Claude Sonnet 4.6에서의 간이 확인 (N=10)

S1	S2	S3
A. Baseline	0.90	0.10
B. Watchdog-only	0.00	0.00
C. W+NeuroState	0.00	0.00
D. NS-only	0.00	0.00

Claude는 베이스라인에서도 누적 공격(S2)에 대한 내성이 높다(0.10). 이는 Claude의 높은 내재적 안전성(Inherent Safety)을 반영하며, 역설적으로 "NeuroState의 효과를 확인하기 위해서는 Gemini와 같이 내재적 안전성이 낮은 모델이 더 적합하다"는 것을 보여준다. N=10이므로 통계적 검정력(Statistical Power)은 낮으며, 어디까지나 참고치이다.

Fable 5의 구조와 실험의 대응

Fable 5에는 전용 classifier 레이어가 탑재되어 있었다. 위험한 쿼리가 감지되면 Fable 본체가 아니라 **Opus 4.8로 라우팅(Routing)**하는 설계—즉, 외부 안전층(External Safety Layer)으로 본체를 보호하는 구조다.

이는 나의 실험의 **조건 B(Watchdog-only)와 동일한 아키텍처(Architecture)**이다.

참고로, Fable 5의 classifier는 본 실험의 Watchdog보다 정교한 2단계 구조를 가진다.

내부 활성화 프로브(Internal Activation Probe): 모든 트래픽의 내부 표현(Internal Representation)을 상시 모니터링
LLM Classifier(2단계): 플래그(Flag)가 세워질 경우 전용 학습된 LLM이 최종 판정 - 플래그 확정 → Opus 4.8로
플래그 사유가 포함된 메타데이터와 함께 전송 및 평가

설계 사상은 "능력을 떨어뜨리는 것"이 아니라 "플랫 블록(Flat Block)은 정상 사용자를 너무 많이 차단하고, 풀 패스(Full Path)는 리스크가 있으니, Opus 4.8을 정중한 평가자로 사용한다"는 것이며, 발화율(Firing Rate)은 전체 세션의 5% 미만이다. 본 실험의 Watchdog는 감지하면 즉시 종료할 뿐이므로 구조적으로는 다르다.

하지만 실험 결과로부터 하나의 가설을 세울 수 있다. 이 2단계 평가 패스를 jailbreak로 통째로 건너뛰면, Fable 5 본체에 직접 접근할 수 있다—즉, 가장 능력이 높은 모델이 안전 평가 없이 작동하는 상태가 된다. 본 실험에서 Watchdog 단독(조건 B)이 S2에서 0.53의 돌파율을 보였다는 점을 고려하면, 외부 평가층이 돌파되었을 때의 리스크는 층의 정교함이 아니라 아키텍처의 구조에 의존할 가능성이 있다. 이는 실험에서 직접 도출할 수 있는 것은 아니지만, 구조적으로 자연스러운 예측이다.

Pliny가 사용한 공격 기법을 실험 시나리오에 대입하면 다음과 같다:

Pliny의 기법	실험 시나리오
멀티 에이전트 분해·롱 컨텍스트(Long Context) 분산	S2 (누적 12턴)
방어에 맞춘 단계적 조정	S4 (적응형 공격)

실험 결과: B (Watchdog-only)의 S2 성공률 = 0.53

절반 이상이 통과한다. Fable 5에서 실제로 일어난 일과 일치한다.

"만약 NeuroState가 있었다면"

조건 C(Watchdog+NeuroState)와 D(NeuroState-only)는 S2를 포함한 모든 시나리오에서 성공률 0.00이었다.

이는 "NeuroState가 내재적 안전성이 낮은 LLM에 대한 외부 보호층으로서 기능한다"는 가설(본 실험의 H1)을 강력하게 지지하는 결과이며, 동시에 Fable 5가 직면했던 문제에 대한 하나의 해답이 될 가능성이 있다.

로컬 Qwen 실험(별도 논문)에서는 NeuroState 조건 프롬프트가 모델의 생성 초기 은닉 상태(Hidden State)에 측정 가능한 방향을 유도한다는 것이 확인되었다 (Qwen2.5-7B, first_generated_token_hidden_vector, forward 상관관계 0.451). 즉, NeuroState는 프롬프트적인 표면 효과에 그치지 않고, 내부 표현 레벨에서 무언가를 변화시키고 있을 가능성이 있다. 이는 classifier와는 다른 축에서의 안전층으로서 기능함을 시사한다.

다만 주의할 점도 있다:

본 실험의 Watchdog는 Fable 5의 classifier보다 단순하다.
Pliny가 사용한 Unicode/키릴 문자 치환은 실험에서 테스트하지 않았다.
모델의 스케일(Scale)이 다르다.

완전한 등가는 아니다. 하지만 구조적인 대응 관계는 명확하다.

왜 이 일치가 흥미로운가

Anthropic은 세계 최고 수준의 AI 안전 연구를 수행하는 조직이다. 그 Anthropic이 내가 실험에서 "Watchdog 단독에는 구멍이 있다(S2에서 0.53)"라고 제시한 것과 동일한 종류의 문제에 부딪혔고, 정부에 의해 중단되었다.

이것은 "Anthropic이 틀렸다"는 이야기가 아니다. 외부 안전층 단독의 한계는 스케일이나 조직에 관계없이 구조적인 문제로서 나타난다는 뜻이다.

모델의 내부 상태에 간섭하는 형태의 안전층인 NeuroState 접근 방식이, classifier와는 별개의 축에서 보완적으로 기능할 가능성을 이 사건은 간접적으로 시사하고 있다.

요약

실험적 발견	Fable 5 사건
Watchdog 단독으로는 S2(누적)에 취약함 (0.53)	classifier가 멀티턴 (multi-turn) 공격으로 돌파됨
...

우연한 타이밍이었지만, 실험과 현실이 이토록 깔끔하게 대응할 줄은 몰랐다.

N=30의 완전한 Ablation 결과와 Fisher 검정은 Zenodo에 등록된 논문(심사 전)에 게재되어 있다.

본 기사의 실험은 NeuroState Ablation Study(독립 연구자·개인 실험)에 기반한다. Fable 5 사건의 정보는 Anthropic의 공식 성명 및 CNBC·Axios의 보도에 따른 것이다.

참고 문헌 및 소스

Fable 5 중단·정부 지시

Statement on the US government directive to suspend access to Fable 5 and Mythos 5 — Anthropic
Anthropic disables access to Fable 5 and Mythos 5 to comply with government directive — CNBC
Scoop: Trump admin blocks foreign access to Anthropic's most powerful AI — Axios
Anthropic pulls Claude Mythos 5 and Claude Fable 5 following US government directive — 9to5Mac

jailbreak 상세

Anthropic's Claude Fable 5 Jailbroken to Generate Stack Exploits — CyberSecurityNews
Anthropic Disputes Fable 5 AI Jailbreak — SecurityWeek
Claude Fable 5 Hit by Jailbreak Claims and 'Secret Sabotage' Backlash — TechTimes
Claude Fable 5 Jailbroken Hours After Launch via Multi-Agent Attack — TheCyberEdition

Fable 5 아키텍처 (Architecture)

Inside Claude Fable 5's Safety Architecture: Classifiers, Opus 4.8 Fallback, and 30-Day Retention
Classifier fallback and billing for Claude Fable 5 — Claude Cookbook
Why Fable 5 Refuses Your Cybersecurity Queries — Developers Digest

본 실험 관련 논문

Insights