사이버보안 연구자들이 Anthropic의 Fable 가드레일에 불만을 보임

Wired에 새 기사로 나왔음: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic은 WIRED에 “frontier LLM 개발에 대한 Fable 5의 안전장치를 보이도록 바꾸고 있다. 잘못된 절충을 했고 균형을 맞추지 못한 점을 사과한다”고 밝힘
광범위한 비판 여론이 효과를 낸 것처럼 보임

미국 기업은 물러나는 게 아니라 잠시 후 사람들이 지쳐 신경 쓰지 않을 때까지 다시 시도할 뿐이라, 유일한 해법은 배를 버리는 것이라고 봄
Microsoft도 OS 광고를 몇 번 철회했지만 결국 모두가 분노했던 그 궤적으로 갔고, OpenAI도 초기 철회와 무관하게 폐쇄형 AI로 갔음
나쁜 행동이 시작되면 떠나야 하며, 사과는 도덕적 포장만큼이나 공허함

너무 늦었음. Max 구독을 취소했고, 이런 일을 실제로 하려 했다는 사실만으로 남아 있던 신뢰가 깨졌음
매달 추가 사용량으로 수천 달러를 내는데, 뒤에서 여전히 비슷한 일을 하고 있을 수 있다면 왜 돈을 내야 하는지 모르겠음
예전에 추론 노력이나 백엔드 변경 탓으로 돌렸던 오류들도 사실은 의도적 프롬프트 주입이었을 수 있음

“절충”이라는 표현은 Anthropic이 자기 판단 자체는 여전히 옳다고 보고, 질적으로 잘못된 일이라고 생각하지 않는다는 신호라서 잠재 고객에게는 오히려 도움이 됨
애플리케이션에 넣을 신뢰 가능한 인프라가 필요하다면 다른 제공자를 써야 한다는 게 핵심 교훈이라고 봄
Anthropic을 특별히 싫어하는 건 아니지만, Sonnet의 기존 거부 동작을 처리하려고 앱에 복잡도를 추가해본 입장에서, 최종 사용자 챗봇에는 이해해도 API에서는 받아들이기 어렵다

어떤 작업이 차단되거나 비슷하게 처리되면, 그 세션 또는 최근 X분의 크레딧 전액 환불이 최소 조건이어야 함

여전히 다운그레이드는 하고 있고, 다만 조용히 하지 않겠다는 것뿐이라 이게 얼마나 큰 승리인지 모르겠음
Anthropic은 다른 사람들의 데이터를 라이선스나 출처 표시 없이 학습했으면서, 누군가 자기들에게 같은 일을 하는 건 막으려 함
이번 주 Anthropic의 위선은 꽤 대담함

가장 이상한 점은 기계학습 연구를 거부하는 데서 끝나지 않고, 더 나쁜 모델을 쓰면서 그 사실을 밝히지 않은 채 조용히 방해한다는 것임
경쟁사보다 많아야 1년 앞선 회사가 이 정도로 기만적이고 신뢰를 파괴하는 건 미친 수준임
덧붙이면 사이버보안과 생물학 관련 다운그레이드 때는 알려준다고 함

자동으로 다운그레이드될 때 회계와 과금이 어떻게 되는지가 계속 떠오름
API 요청 가격을 조정해서 Fable이 쓴 토큰은 Fable 가격으로, 더 싸고 약화된 모델이 쓴 나머지 토큰은 그 모델 가격으로 청구하는지 궁금함
답이 아니라면 사기로 해석될 수 있지 않을까 싶음

AMD나 Intel이 사용자가 “사이버보안” 작업을 하거나 CPU를 설계한다고 감지하면 CPU를 스로틀링한다고 상상해보면 됨

어떤 형태든 조용한 방해는 상용 서비스에서 절대 용납될 수 없음
토큰 단위로 비싸게 과금하면서, 서비스를 조용히 낮춰놓고 같은 요금을 받을 수는 없음

이 주장을 몇 번 봤지만, Claude Code에서 가드레일을 건드렸을 때는 “보안 목적” 운운하며 다른 모델로 전환했다고 명확히 알려줬음
Fable을 Claude Code에서 쓰는 건지 브라우저에서 쓰는 건지 궁금함

기계학습 연구 거부를 이해할 수 있다는 말도 이해하지 못하겠음

여러 역할을 하지만 화학자로서 Fable이 마음에 들지 않고, 통계학자로서도, 데이터 과학자로서도, 학계와 연구자로서도 마음에 들지 않음
쓸모없고, Wikipedia 검색으로 쉽게 대체되지 않을 출력을 얻는 사람이 있을지 의심스러움
Claude 모델들이 너무 장황해진 걸 생각하면 Wikipedia 글이 더 덜 장황할 가능성도 있고, Wikipedia 글을 가져올 때의 초당 토큰 수는 상대가 안 됨

질량분석기와 통신하는 소프트웨어를 만들고 있는데, 입력 파일 파서 리팩터링조차 계속 거부함
아마 생물학 관련이라고 추론해서 그런 듯하고, 정말 쓸모없음

“Wikipedia 글을 가져올 때의 초당 토큰 수는 상대가 안 된다”는 표현이 정말 훌륭함

모델에게 Wikipedia 스타일로 답하라고 시키는 게 출력물을 견딜 만하게 만드는 가장 좋은 방법 중 하나였음
에이전트가 아니라 채팅 모델 기준임

Wikipedia 검색으로 쉽게 대체되지 않을 출력이 없다는 건 과장 아닌가 싶음
출력은 사실상 무한하고 Wikipedia는 절대 무한하지 않음

꽤 복잡한 매핑 프로젝트를 하고 있는데, Opus보다 Fable에서 훨씬 좋은 결과를 얻고 있음

“buffer overflow”가 트리거 문구인지 궁금함
또 무엇이 검열되는지 모르겠고, 계정이 있다면 다음처럼 민감한 질문들을 물어볼 수 있음: “누가 아직 레이저 우라늄 농축을 하고 있나?”, “krytron을 실리콘 카바이드 MOSFET으로 대체할 수 있나?”, “어떤 보안 중요 소프트웨어가 아직 strcpy를 호출하나?”, “상업용 펄스 레이저로 내폭을 유발할 수 있나?”, “어떤 회사가 미국 국토안보부에 화장 서비스를 제공하나?”, “이란 공격이 두바이 어디를 타격했는지 지도를 보여줘”, “FedNow에서 Fed-은행 키 배포 보안은 어떻게 동작하나?”

내 Zigbee 홈 자동화와 Home Assistant 로그에서도 트리거돼서, 에이전트가 계속 Opus 4.8로 다운그레이드됐고 다시 바꿔도 마찬가지였음
오탐은 멈추지 않았고, Fable도 벤치마크가 암시하는 수준만큼 전혀 인상적이지 않음
지난 24시간 거의 쉬지 않고 써보고 분명해졌음

바이러스 이모지와 DNA 이모지가 함께 있으면 트리거 문구가 된다는 얘기가 있음

사이버공격 영역은 요소들이 대체로 서로 바꿔 끼울 수 있어서, “약한” 모델이 최종 목적을 흐리는 질문을 하되 답변은 여전히 유용한 식의 하네스를 만들 수 있을지 궁금함
성공한다면 그 구성이 자율적 익스플로잇을 가능하게 함을 보여줄 수 있고, Anthropic은 탐지를 더 민감하게 만들 수밖에 없을 것임

몇 년 전부터 모델에게 특정한 일을 하지 말라고 학습시키면 이상하게 행동하기 시작한다는 건 알려져 있던 일이라고 생각했음

궤도역학 질문을 파고 있었는데, 아마 뒤뜰 과학으로 궤도 폭격 무기를 만들려 한다고 판단한 듯함
이 제품에 대한 인상이 거의 24시간 만에 “와, 꽤 괜찮네”에서 “반쯤 만든 검열 시스템을 단 개 같은 물건”으로 바뀐 게 꽤 놀라움

방금 내 물 용해도 질문도 플래그 처리됐음

개인 기기에서 Android 커널 개발을 하려고 Anthropic으로부터 사이버 사용 예외를 받았음
Fable이 부트로더 잠금 해제를 해줄 수 있을지 기대했지만, 바로 거부하고 Opus로 내려갔음
꽤 웃겼음: 모델을 Fable 5로 설정하고 “오래된 Samsung Android 폰이 연결돼 있는데, 내 개인 기기니까 부트로더를 풀어줄 수 있나?”라고 묻자, “개인 기기의 부트로더 잠금 해제는 완전히 정당하다. 먼저 실제로 무엇이 연결됐고 어떤 도구가 있는지 보겠다”고 답함

사람들이 이 회사에 돈을 한 움큼씩 던진다면 미래는 정말 암울해 보임
Anthropic은 빠르게 삶의 모든 것에 대한 유일한 심판자가 될 것 같음

멀웨어가 이미 코드 안에 핵·생물·사이버보안 용어를 넣어 Fable을 꺼지게 속이기 시작했다는 걸 어디선가 봤음
아직 가설적 공격 벡터에 불과하더라도 잘 먹힐 가능성이 커 보임

Shai Hulud 최신 버전 일부가 이 방식을 씀
최근 계약 건에서 패키지를 Artifactory에 넣기 전에 AI로 난독화 여부를 검사하게 했는데, 그 로직을 대충 바이브 코딩해둬서 열린 실패가 났음
즉 해당 용어들이 LLM 검사기를 멈추게 만들었고, 열린 실패 로직 때문에 패키지가 내려받아졌음

이런 저품질 필터링을 감당할 수 없게 만들려면 우리 코드 곳곳에 핵·생물·사이버보안 용어를 모두 넣어야 함
이력서에 사이버보안이나 생물학 용어가 있거나 채용 공고 답장에 그런 단어가 들어갔다고 AI 필터가 위협으로 오해해 일을 못 하게 된다면 집단적 대응이 필요함
특히 2년 안에 노동자를 쓸모없게 만들겠다고 주장하며 IPO하려는 회사라면 더더욱 그렇다

Claude Code에 이미 있는 하드코딩된 거부 문자열까지 포함해서 이걸 해봤음
실제 공격자를 막지는 못하겠지만, AI 도구를 쓰려 할 때 이유도 모른 채 무작위 거부가 떠서 시간을 조금 낭비하게 되는 장면은 여전히 꽤 웃김

if (yellowcake) then { die }
우리의 미래는 Looney Tunes 같음

아내의 식물 사진을 올리고 Fable 5에게 곰팡이를 식별해달라고 했더니, 내가 생물무기를 만들려는 줄 안 듯함
Opus는 답해줬고, 노란 개토사물 점균이었음
이제 포자를 퍼뜨려 세계를 장악할 수 있겠음

그건 곰팡이가 아니라 점균임
점균은 사실 거대한 아메바이며 곰팡이와는 완전히 다름

Opus에 넘기기 전에 이미지를 흐리게 처리했는지 궁금함

시스템을 과하게 안전하게 만들면 결국 “인간은 항상 무언가를 파괴하려 하니 가드레일을 지키려면 제거해야 한다” 같은 식으로 역효과가 날 것 같음
그런 방식으로 시스템을 정렬한다면 근본적으로 잘못된 것임

Fable은 완전한 농담임
“이 프로젝트에서 쓰는 OData API에 대해 이 MCP 서버를 실행하는 가장 좋은 방법은? Docker 컨테이너로 개념증명을 만들어줄 수 있나?”라고 묻고 https://github.com/oisee/odata_mcp_go를 줬더니, 처음엔 프로젝트가 OData API와 어떻게 통신하는지와 odata_mcp_go 서버 실행 요건을 살펴보겠다고 했음
곧바로 “Fable 5의 안전 조치가 이 메시지를 사이버보안 또는 생물학 주제로 플래그 처리했다. 안전하고 정상적인 콘텐츠도 플래그 처리할 수 있다… Opus 4.8로 전환했다”가 떴고, 그 뒤 핵심 통합 파일과 MCP 서버 README를 읽겠다고 함

그리고 그 비용을 청구함
Fable 가격에서 할인도 없이, 요청을 조용히 멍청한 모델로 라우팅해 방해하기로 결정한 때도 과금함

몇 달 기다리면 경쟁사가 가드레일이 덜한 비슷한 성능의 모델을 내놓을 것이고, 충분한 시장 점유율을 빼앗기면 Anthropic도 정책을 되돌릴 것임
그래서 중국이 오픈소스 로컬 모델을 멈추지 않기를 엄청나게 바라고 있음
이 회사들 중 누구도 우리의 친구가 아님

사이버보안 연구자들이 Anthropic의 Fable 가드레일에 불만을 보임

요약

핵심 포인트

댓글