Anthropic이 Claude Fable 5를 비밀리에 제한한 것에 대해 사과했지만, 그 사과는 더 큰 문제를 간과하고 있습니다.

요약 (TL;DR)

Anthropic은 Claude Fable 5에서 모델 증류 (model-distillation) 시도를 감지했을 때 답변 품질을 조용히 저하시켰던 숨겨진 안전 장치에 대해 사과하고 이를 되돌렸습니다. 이 과정에서 어떠한 알림이나 폴백 (fallback)도 제공되지 않았습니다. Fortune과 Wired의 보도에 따르면, Anthropic은 자체 319페이지 분량의 시스템 카드 (system card)를 통해 "프롬프트 수정 (prompt modification), 스티어링 벡터 (steering vectors), 또는 매개변수 효율적 미세 조정 (parameter-efficient fine-tuning)"을 통해 이 작업을 수행했다고 밝혔습니다.
해당 조치를 되돌린 것에 대한 회사의 입장은 다음과 같습니다: "우리는 잘못된 트레이드오프 (tradeoff)를 선택했으며, 균형을 제대로 맞추지 못한 점에 대해 사과드립니다." 이제 플래그가 지정된 요청은 Opus 4.8로 가시적으로 폴백 (fallback)됩니다. 전체 복구 작업에는 약 24시간이 소요되었습니다.
Anthropic은 증류 (distillation) 방어 기제가 전체 트래픽의 **약 0.03%**에만 영향을 미쳤다고 추정했습니다 (Fortune 보도 기준). 하지만 "Hello"와 같이 무해한 입력조차 거부하는 것으로 알려진 별도의 과도하게 보수적인 분류기 (classifier)가 Anthropic의 자체 수치에 따르면 세션의 5% 미만에서 작동하며, 실제로 개발자들에게 피해를 주는 것은 바로 이 분류기입니다.
아무도 공개적으로 말하지 않는 세부 사항은 다음과 같습니다: 이 숨겨진 방어 기제는 특히 경쟁 모델을 훈련시키려는 사람들을 표적으로 삼았습니다. 이는 안전이라는 가면을 쓴 경쟁적 해자 (competitive moat)이며, 관찰자들이 반독점 (antitrust) 문제를 제기한 정확한 이유입니다.

이번 주 약 24시간 동안, Claude Fable 5는 사용자에게 알리지 않고 조용히 답변 품질을 떨어뜨릴 수 있었습니다. Anthropic은 이제 사과를 표명하고 해당 동작을 가시화하고 있습니다. 빠른 복구 조치는 진심으로 회사의 공로로 인정받을 만하지만, 사과문을 자세히 읽어보면 두 가지 문제 중 더 작고 원칙적으로 들리는 문제에 대해서만 사과하고 있음을 알 수 있습니다. 더 크고 더 많은 것을 드러내는 문제는 여전히 대부분 그대로 남아 있습니다.

실제로 무슨 일이 일어났는가

Anthropic이 최초의 공개 가능한 Mythos-class 모델인 Fable 5를 출시했을 때, 여기에는 모델 증류 (model distillation) — 대형 모델의 출력을 사용하여 더 작거나 경쟁 관계에 있는 모델을 학습시키는 관행 — 에 대한 방어 기제가 포함되어 있었습니다. 반전은 이 방어 기제가 작동하는 방식에 있었습니다. Fortune과 Wired에 따르면 Anthropic의 자체 시스템 카드(319페이지 분량의 문서)에 의하면, 이 증류 방어 기제는 의도적으로 보이지 않게(invisible) 설계되었습니다. Anthropic의 표현을 빌리자면 다음과 같습니다: "사이버 보안, 생물학 및 화학, 그리고 증류 시도에 대한 우리의 개입과는 달리, 이러한 방어 기제는 사용자에게 보이지 않을 것입니다. Fable 5는 다른 모델로 전환(fall back)되지 않습니다. 대신, 방어 기제는 프롬프트 수정 (prompt modification), 스티어링 벡터 (steering vectors), 또는 매개변수 효율적 미세 조정 (PEFT, parameter-efficient fine-tuning)과 같은 방법을 통해 효과를 제한할 것입니다."

즉, 모델이 사용자가 자신을 증류하고 있다고 판단하면, 조용히 자신의 출력을 유도하거나 성능을 저하시키며, 사용자는 이를 알 방법이 전혀 없다는 뜻입니다. 연구자들이 이를 포착했고, 한 기록에 따르면 이는 수년 만에 AI 연구자들로부터 나온 가장 분노 섞인 반응이었으며, 약 하루 만에 Anthropic은 X에 다음과 같은 글을 게시했습니다: "우리는 프런티어 LLM 개발을 위한 Fable 5의 방어 기제를 가시화할 수 있도록 변경하고 있습니다... 우리는 잘못된 트레이드오프 (tradeoff)를 선택했으며, 균형을 제대로 맞추지 못한 점에 대해 사과드립니다." 앞으로 플래그(flag)가 지정된 요청은 Opus 4.8로 가시적으로 전환될 것이며 — 이는 사이버 및 생물학 방어 기제에 이미 적용되었던 것과 동일한 처우입니다 — 사용자는 매번 이를 확인할 수 있게 됩니다.

본질: 두 가지 서로 다른 실패, 하나의 사과

이 지점에서 대부분의 보도들은 개발자들이 반드시 구분해야 할 두 가지 사항을 하나로 뭉뚱그려 설명하고 있습니다.

문제 1 — 보이지 않는 증류 조절 (사과의 대상). 설계상 범위가 좁습니다. Fortune에 따르면 Anthropic은 이것이 트래픽의 약 0.03%에 영향을 미친다고 추정했습니다. 원칙을 지키는 듯한, 규모가 작으며, 이제 가시화될 예정입니다. 만약 당신이 Fable의 출력을 사용하여 경쟁 모델을 학습시키고 있는 것이 아니라면, 이 기능이 당신에게 영향을 미칠 가능성은 낮았습니다.

문제 2 — 과도하게 보수적인 거부 분류기 (거의 언급되지 않음). 이와 별개로, The Register를 비롯한 매체들은 Fable 5가 무해한 프롬프트(prompt)를 거부하고 있다고 보도했습니다. 한 수석 연구 과학자(principal research scientist)는 모델이 "Hello"와 같은 입력에도 주춤거린다고 보고했습니다. 또한 Claude Code에서 Fable 5의 입력 안전 분류기(input safety classifier)는 거의 모든 세션의 첫 번째 턴에서 model_refusal_fallback — 즉, Opus 4.8로의 조용한 전환 —를 발생시켰으며, 여기에는 단 한 단어만이 입력된 세션도 포함되었습니다. Anthropic 측의 설명은 이러한 보수적인 가드레일(guardrails)이 "때때로 무해한 요청을 포착하며" "세션의 5% 미만"에서 발생한다는 것입니다. 5% 미만은 0.03%가 아닙니다. Fable을 사용하여 제품을 출시하는 누구에게나, 문제 2는 실제 작업을 조용히 저하시키는 문제입니다. 그리고 Anthropic의 사과는 이를 부분적으로만 다루고 있습니다 ("최대한 빨리 오탐(false positives)을 줄이겠습니다").

이것이 지금 중요한 이유

해결책 — 폴백(fallback)을 가시화하는 것 — 은 올바른 결정이지만, 이는 상처가 아닌 증상을 치료하는 것에 불과합니다. 진짜 상처는 신뢰 모델(trust model)입니다. 이번 주 전까지 프런티어 모델(frontier model)을 기반으로 구축하는 모든 이들의 기본 가정은 간단했습니다: 당신이 호출하는 모델이 당신이 얻는 모델이라는 것입니다. Fable 5는 이를 조용히 깨뜨렸으며, 우리는 연구자들이 그 동작을 역공학(reverse-engineered)했기에 비로소 이를 알게 되었습니다. 이러한 안전장치를 가시화하는 것은 이로 인해 제기된 질문에 답하지 못합니다: 319페이지에 달하는 시스템 카드(system card) 내에서, 조사할 수 없도록 설계된 것이 또 무엇이 있습니까? Anthropic 스스로가 사과문에서 불편한 논리를 제공했습니다: "가시적인 안전장치는 조사될 수 있으므로, 반드시 견고해야 합니다." 보이지 않는 안전장치는 바로 조사를 할 수 없기 때문에 존재하는 것입니다. 이는 단순한 변명이 아니라 시인입니다.

명확하지 않은 관점: 안전으로 위장한 해자(moat)

이러한 "안전 (safety)" 프레임워크가 가리고 있는 것은 다음과 같습니다. 사이버, 바이오, 화학 분야의 안전장치는 재앙적인 오용으로부터 대중을 보호합니다. 하지만 증류 (distillation) 방어 기제는 전혀 다른 것을 보호합니다. 바로 Anthropic의 경쟁적 지위 (competitive position) 입니다. 증류 (distillation)란 경쟁사가 귀하의 값비싼 프런티어 모델 (frontier model)을 자신들의 저렴한 모델로 만드는 방식입니다. 이에 대응하는 것은 합리적인 비즈니스적 이해관계입니다. 하지만 이는 비즈니스적 이해관계일 뿐, 공공 안전을 위한 것이 아닙니다. 유료 제품의 성능을 보이지 않게 저하시키며 이를 출시한 방식 때문에 관찰자들이 반독점 (antitrust)이라는 단어를 사용하기 시작한 것입니다. 지배적인 모델 제공자가 잠재적 경쟁자가 될 존재들의 출력을 조용히 방해하는 행위는 규제 당국이 다루는 전형적인 사례입니다. 이번 사과는 대외적인 이미지 (optics) 문제를 조용히 해결했을 뿐, "안전"과 "해자 (moat)"가 동일한 숨겨진 메커니즘 안에 묶여 있었다는 근본적인 사실을 해결하지는 못했습니다.

누가 이기고, 누가 지는가

승자: Anthropic의 평판 (좁은 의미에서). 24시간 만의 결정 번복과 솔직한 사과는 기업이 스스로 초래한 신뢰 타격을 처리할 수 있는 최선의 방식입니다. 그들은 대응력이 있어 보입니다.
패자: "프런티어 모델 (frontier model)"이라는 말을 액면 그대로 믿었던 모든 이들. 이번 사건은 모델의 성능이 제공자가 당신이 무엇을 하고 있는지 결정하는 방식에 따라 조용히 조건부로 제한될 수 있으며, 그 사실을 통보받지 못할 수도 있다는 증거입니다.
승자: 오픈 웨이트 (open-weight) 및 자체 호스팅 가능한 모델들. 이런 종류의 이야기는 모델의 동작을 직접 검사할 수 있는 모델의 필요성을 뒷받침하는 논거가 됩니다. "가중치 (weights)를 직접 실행하기 때문에 우리가 당신을 몰래 제한할 수 없다"는 것은 이제 강력한 셀링 포인트가 되었습니다.
패자: "그저 최고의 모델을 사용하라"는 전략. 만약 최고의 모델이 당신이 볼 수 없는 분류기 (classifier)에 따라 조용히 열등한 모델로 변할 수 있다면, 당신의 기술 스택은 이를 가정하고 대비책을 마련해야 합니다.

이것이 당신에게 의미하는 바

어떤 모델이 답변했는지를 포함하여 모든 것을 기록하세요. 만약 제공업체가 응답 모델이나 폴백 (fallback) 플래그를 노출한다면, 이를 캡처하십시오. Fable에서 가시적인 폴백 (visible-fallback) 변경이 가능해졌으므로, 이를 활용하십시오.
문제 1이 아닌 문제 2를 주시하십시오. 증류 제한 (distillation throttle)은 대부분의 팀에게 영향을 미치지 않을 것입니다. 하지만 과도하게 의욕적인 거부 분류기 (refusal classifier) — 즉, 무해한 입력에 대해 조용히 폴백 (fallback)을 수행하는 것 — 이 실제 운영 환경에서 품질을 조용히 떨어뜨리는 주범입니다. 예상치 못한 거부나 폴백을 식별하는 평가 (eval)를 추가하십시오.
보이지 않는 동작을 조달 (procurement) 문제로 취급하십시오. 벤더에게 명확하게 물으십시오: "어떤 조건에서 모델이 사용자에게 알리지 않고 출력을 변경하거나 저하시킵니까?" "공개하지 않을 조건은 없습니다"가 유일하게 수용 가능한 답변이어야 합니다.
기술 스택에 검사 가능한 폴백 (fallback)을 유지하십시오. 보조 모델로서라도 감사 (audit)할 수 있는 오픈 웨이트 (open-weight) 모델을 보유하는 것이 바로 이러한 종류의 돌발 상황에 대한 헤지 (hedge)가 됩니다.

자주 묻는 질문 (Frequently asked questions)

Anthropic은 무엇에 대해 사과했나요?

Claude Fable 5에서 모델 증류 (model-distillation) 시도가 의심될 때, 사용자에게 알리지 않고 조용히 응답 품질을 저하시키는 숨겨진 안전 장치 (safeguard)에 대해 사과했습니다. 시스템 카드 (system card)에 따르면, 이는 프롬프트 수정 (prompt modification), 스티어링 벡터 (steering vectors), 또는 PEFT를 통해 이루어졌습니다. Anthropic은 "잘못된 트레이드오프 (tradeoff)를 했다"고 밝혔으며, 현재 해당 동작을 가시화하여 플래그가 지정된 요청은 이제 Opus 4.8로 공개적으로 폴백 (fallback)되도록 조치하고 있습니다.

실제로 얼마나 많은 사용자가 영향을 받았나요?

보이지 않는 증류 안전 장치 (distillation safeguard)의 범위는 좁았습니다. Fortune에 따르면 Anthropic은 트래픽의 약 0.03% 정도로 추정했습니다. 하지만 별개의 더 광범위한 문제인, 무해한 입력을 거부하는 과도하게 보수적인 분류기 (classifier)는 Anthropic 자체 수치로 세션의 5% 미만에서 발생하며, 이는 개발자들에게 더 큰 실질적인 문제입니다.

연구자들은 왜 이것을 반독점 (antitrust) 문제라고 불렀나요?

왜냐하면 이 숨겨진 안전장치 (safeguard)가 특히 지식 증류 (distillation) — 즉, 경쟁 모델을 학습시키기 위해 모델의 출력을 사용하는 행위 — 를 겨냥했기 때문입니다. 잠재적 경쟁자에게 불이익을 주기 위해 유료 제품의 성능을 몰래 저하시키는 것은 안전이라는 프레임으로 포장된 경쟁 행위이며, 이는 반독점 (antitrust) 규제 기관들이 다루는 전형적인 행위 유형입니다.

이제 Fable 5를 기반으로 구축해도 안전할까요?

특정한 보이지 않는 동작이 가시화되고 있다는 점은 도움이 됩니다. 하지만 이번 사건은 여러분의 스택 (stack)에 계측 도구 (instrument)를 갖추어야 할 이유가 됩니다. 어떤 모델이 답변했는지 로그를 남기고, 예상치 못한 거부 (refusal) 또는 폴백 (fallback)에 대한 평가 (evals)를 추가하며, 헤지 (hedge) 수단으로서 검사 가능한 (inspectable) 모델을 유지하십시오. 제공업체가 여러분이 볼 수 없는 분류기 (classifier)를 기준으로 성능을 조건부로 제공할 수 있다고 가정해야 합니다.