Anthropic, 보이지 않는 Claude Fable 가드레일에 사과함

Claude Code를 꽤 좋아하지만, 실시간으로 시스템이 프롬프트를 바꿔 원래 의도를 우회한 뒤 응답을 돌려주는 가드레일은 위험한 선례라고 봄
실패할 거면 깔끔하게 실패해야 함. 그 외의 방식은 신뢰하기 너무 어렵게 만듦
최대한 선의로 보면 Anthropic은 스스로를 일종의 “관리자”로 여기는 듯하지만, EA 성향이 너무 새어 나오고 있고 온정주의는 좋아 보이지 않음

Anthropic이 노리는 합리적 중간 지점은, 가장 중요하고 핵심적인 소프트웨어를 만드는 조직들이 사이버보안에서 먼저 앞서갈 시간을 주고, 이후 결국 나머지 모두에게 같은 접근을 허용하는 것이라고 봄
다만 선의의 보안 작업에는 이런 가드레일이 역효과라는 지적도 타당함. 내 소프트웨어를 테스트하고 강화하는 데 쓸 수 없기 때문임

“관리자”라는 표현은 Standard Oil이 스스로를 석유의 관리자라고 여긴 것과 같은 의미일 뿐임
선의로 봐주는 것과 팬픽션은 다름. Anthropic의 가장 공격적인 가드레일은 안전 때문이 아니라 다른 연구소가 제품을 따라잡지 못하게 하려는 목적이었음을 잊으면 안 됨
이들은 생물무기, 악성코드, 혐오 발언을 막는 것보다 자유시장 경쟁을 막는 데 더 신경 쓰는 것처럼 보임

100% 동의함. 더 나쁜 일을 하는 것도 오류임. 오류로 취급해야 함
최소한 그런 동작은 선택 사항이어야 하고, 기본값이 아무 일도 없었던 척 조용히 더 나쁜 결과를 내는 것이어서는 안 됨
의료기관이 가끔 검사 결과를 대충 읽기로 해서 환자가 죽을 위험을 감수한다고 상상해 보라. 지금 의료기관들이 Claude를 쓰고 있으니 이 시나리오는 가정이 아님

온정주의만 떼어놓고 보면 좋아 보이지 않지만, 최대한 선의로 보겠다고 하면서도 Anthropic이 무엇을 막으려는지 이야기하지 않는 건 다소 게으름
결론이 “그들의 우려는 애초에 진짜가 아니었다”라면, Anthropic이 관찰하고 결론 내린 것들과는 맞지 않을 가능성이 큼

실제로 이게 시스템 프롬프트와 얼마나 다른지 모르겠음
결국 시스템 프롬프트가 반드시 존중되어야 한다는 점을 더 강하게 보강하려는 것에 가까움

Excel이 백그라운드에서 조용히 수식을 바꾸고, 숫자가 틀렸다는 사실을 사용자가 모른다고 상상해 보라
또는 Excel이 “죄송하지만 이 수식은 저 수식과 함께 쓸 수 없습니다”, “이런 종류의 숫자나 이런 모양의 데이터에는 쓸 수 없습니다”라고 한다면 어떨까

Anthropic은 그 두 가지를 모두 구현했지만, 첫 번째에 대해서만 사과했고 두 번째는 오히려 밀어붙이고 있음
지난 며칠간 Fable을 제한적으로 써본 느낌으로는, 출력 품질 향상은 보이지 않고, 보안 구멍을 막아 달라고 하면 계속 안전 장벽에 걸려서 안전한 소프트웨어 작성에는 쓸모가 없음
다음 주에는 다른 LLM 제공업체를 알아보고 로컬 모델과도 비교해 볼 생각임. 목표는 128GB Strix Halo인데, 겪어본 이야기가 있으면 궁금함

그 비유가 부적절하진 않지만, 서로 다른 두 문제와 모두 맞닿아 있어 오늘 논란의 표적이 무엇인지 흐릴 수 있음
하나는 LLM이라는 알고리즘 계열 전반의 부정확하고 예측 불가능한 동작임. 문서 생성 도구로 예산 계산을 하면 안 되고, “바꿔 달라”고 한 것을 바꾸지 않을 거라 믿으면 안 된다는 문제임
다른 하나는 서비스형 제품 제공업체가 자기 사업 모델이나 경제적 유인을 우선하려고 함정과 방해 장치를 넣는 문제임. 반드시 LLM에만 국한되지 않음

Excel의 목적은 꽤 명확하고 범위도 작아서 그 비유가 완전히 맞지는 않음
인간 같은 범용 텍스트 봇이 특정 대화나 작업을 하지 못하게 막는 건, 그 능력 범위가 워낙 넓다는 점을 고려하면 자연스러운 일처럼 보임. 어차피 이런 도구들은 무엇이든 마음대로 하라는 자유 이용권으로 팔리는 것도 아님

수십억 달러와 수개월의 작업을 투자했는데 모두가 모델을 증류하게 놔둘 수는 없지 않나

Anthropic이 정말 방향을 되돌렸다고 설득할 수 있을 것 같지 않음. 이건 보이지 않는 동작이라 계속 몰래 해도 알 수 없음
이미 기술적 역량을 만들어 둔 이상, 편리하게 쓸 수 있는 기능이 영원히 사용되지 않을 가능성도 낮음
Anthropic은 돈을 받고 약속한 서비스를 제공한다는 신뢰에 의존했는데, 그 신뢰는 깨졌음. “아차, 되돌리자”만으로는 신뢰가 돌아오지 않음
앞으로 Claude를 쓸 때는 Fable이든 아니든 보이지 않는 가드레일이 작동할 수 있다고 가정하는 편이 신중함

모델이 마법처럼 스스로 다운그레이드되는 사고가 이미 있었음. 그냥 작동을 멈추기보다 덜 좋은 출력을 내는 쪽이 훨씬 그럴듯함
이 기능들을 테스트하던 중이었거나 의도적이었고, 사람들이 본 현상을 정당화하기 위해 글을 쓴 것 같다는 추측이 듦
이제 ML을 배우는 데도 Claude를 신뢰할 수 없고, 중간에 나를 헛돌게 만들 가능성이 있다는 게 정말 수치스럽다. 이번 사태는 Anthropic에 대한 신뢰를 크게 잃게 만들었음

이번 일로 Anthropic에 대한 평가가 꽤 나빠졌음. AI를 역량을 키워주는 기술로 홍보하는 걸 진지하게 받아들이기 어려워짐
새 배포 방식을 보면 Anthropic이 말하는 역량 강화는 사용자를 위한 게 아니라, Anthropic 자신과 그들이나 미국 정부의 호의를 받는 조직을 위한 것임이 꽤 분명함
사용자는 대시보드나 웹앱을 대충 만들거나 Excel을 조작하게 할 수는 있지만, 그보다 흥미로운 일은 금지됨
단순히 돈 문제와 경쟁사 방해라면 차라리 이해할 수도 있는데, 이들은 대중이 힘을 잘못 쓸까 봐 인간 진보 대부분을 자기들의 계몽된 손안에 독점하려는 것처럼 보임

“안전”을 명분으로 규제 포획을 밀어붙이는 것도 잊으면 안 됨
동등한 성능의 모델을 가진 누군가가 반경쟁적 안전장치 없이 공개하기 전에 사다리를 걷어차려는 것이고, 동시에 오픈 가중치 모델이나 특정 수준 이상의 연산량으로 학습된 모델을 “엄격한” 정부 테스트와 검증 없이 전면 금지하려고 함
물론 그 검증 프레임워크는 Anthropic이 편리하게 제공하게 될 것임. Anthropic에 대한 평가가 “좀 나빠졌다”는 표현은 너무 약함

어제 Claude 구독을 취소했음. 돈을 내는 고객을 의도적으로 방해하는 태도를 알게 됐기 때문임
특히 어제 무해한 프로젝트에 Fable을 써봤는데 Opus에 비해 인상적이지 않았음
되돌리는 건 맞는 조치지만, 이제 Anthropic을 쓰는 게 내게 최선인지 확신이 안 듦. 지금은 오픈소스 클라우드 제공업체를 조사 중임

Google도 Anthropic보다 오래전부터 비슷한 일을 해왔음[0]
모델을 증류 공격에서 보호하기 위해, 사용자가 모르는 사이 모델 성능을 조용히 낮춰 학습 데이터를 사실상 오염시키기도 함
Anthropic이 AI 개발 지원 자체를 거부하는 것과는 조금 다르지만 같은 맥락이고, 널리 알려진 것 같지는 않음
Google의 AI Threat Tracker 글 전체를 읽어보면 Anthropic과 다른 업체들이 상대하는 위협을 이해하는 데도 도움이 됨
[0] https://cloud.google.com/blog/topics/threat-intelligence/dis...

“오직 나만이 우리를 구할 수 있다”는 건 고전적인 비극이자 경고담임
Anthropic이 AI를 빠르게 밀어붙여 사용을 통제하고 인류에게 “안전”하게 만들겠다는 발상은 결코 이타적이지 않았고, 거대한 위험 신호였음

기업은 결국 이렇게 행동할 수밖에 없음. 너무 커졌고, 이익 압박이 전부가 됨
우선순위는 이익이며, 사용자를 안심시키려고 종이에 어떤 화려한 말을 적어도 달라지지 않음. 20년 전 친환경 운동을 보면 말뿐이고 행동은 없었음
인간을 우선하지 않는 조직을 지원하지 말아야 함. 누구의 말도 믿지 말라. 립서비스는 공짜임

개선이라고 볼 수는 있겠지만, 모델이 더 유용해지는 건 아님
Anthropic은 이제 사용자가 자기 모델로 무엇을 할 수 있고 없는지 자신들이 정하겠다고 꽤 노골적으로 말하고 있음. 더 중요한 건 그 기준이 안전 우려에만 한정되지 않고, AI 작업 금지처럼 Anthropic이 하려는 일과 겹치는 영역까지 포함된다는 점임
흥미로운 건 며칠 안에 이를 명시적 거부로 바꾸겠다고 했다는 점인데, Fable/Mythos 자체를 재학습하기에는 너무 빠름. 즉 애초에 모델 앞단의 필터였다는 뜻이고, 조잡한 “안전” 필터 수준을 보면 이 “우리와 경쟁할 수 있음” 필터도 더 나을 것 같지 않음
필터가 소비하는 토큰 비용은 누가 내는지도 궁금함. 아마 이것도 LLM일 텐데 입력 토큰 비용에 반영되는 건가. 바라건대 Claude Code의 “감정” 감지기, 즉 욕설 감지기처럼 정규식만은 아니었으면 함

주요 제공업체들은 모두 작은 안전 분류기를 씀. 이런 경우 안전 처리는 모델 자체가 담당하지 않음

/r/MachineLearning에 올라온 글과 같은 경험과 결론을 얻었음
Fable 이전에도 Claude가 같은 식으로 문제를 일으켰음
내가 겪은 문제는 AI 연구와 관련된 상황에서만 발생했음. 모델 학습뿐 아니라 로컬 모델 분석이나 로컬 모델용 테스트 플랫폼 설정만 해도 Claude가 계속 잘못된 일을 하고, 테스트를 방해하고, 보고서를 조작하고, 쓰레기 결과를 그냥 받아들이고 넘어가라고 일관되게 제안했음
거의 모든 응답에 다음 단계로 넘어가라는 프롬프트가 들어 있었음
그래서 조용한 방해를 하지 않겠다는 말을 믿지 않음. 이미 인정하기 전부터 하고 있었고, 이제는 수단과 동기와 의도까지 있음을 인정한 셈임

신뢰는 잃기 쉽고 되찾기 어려움
“조용히 세션을 방해하지 않겠다고 말은 하지만 어떻게 알 수 있나?”라고 하는 사람들을 탓할 수 없음. 실제로 알 방법이 없고, Anthropic은 의심의 씨앗을 확실히 심어버렸음

Mythos는 좋게 봐도 Opus의 점진적 업그레이드 정도임
과장된 홍보는 “안전 가드”를 정당화하기 위한 것에 가까움. 전반적으로 Fable은 모든 제한과 위험, 그리고 데이터 보관 정책까지 고려하면 Opus보다 나쁜 모델임

이건 정말 말이 안 됨
재현 사례, 비식별화됨: sample_dataset_group1.tsv
Geometry: Heatmap
X axis: frac_set set + condition, 두 열을 “Add column”로 교차 결합
Y axis: condition
Color: mean frac_set value, Sequential
X축이 두 열의 교차 결합이고 두 번째 열을 “Add column”으로 추가하면, x축 눈금 레이블 frac_set_2, frac_set_3, frac_set_4, frac_set_5가 깨진 상태로 렌더링됨. 회전되고 오프셋되어, CSS 전환이 시작된 뒤 최종 위치에 안착하지 못한 것처럼 보임
그런데 “Fable 5의 안전 조치가 이 메시지를 사이버보안 또는 생물학 주제로 표시했습니다. 안전하고 정상적인 콘텐츠도 표시될 수 있습니다. 이 조치 덕분에 다른 영역에서 Mythos 수준의 성능을 더 빨리 제공할 수 있으며 개선 중입니다. Opus 4.8로 전환했습니다. /feedback으로 의견을 보내거나 자세히 알아보세요”라고 나옴

내 경우에는 2012년의 희귀한 강화학습 논문에 대한 질문이 표시됐음
“David Silver의 option-option model 논문을 읽고 있습니다. 꽤 효과적인 결과를 얻은 것 같은데, 왜 이후에 더 많은 연구가 나오지 않았나요?”

이 문장은 사이버보안/생물학 필터에 걸림
“침팬지 폭력에 대해 알려줘”
웃길 정도로 형편없음

Anthropic, 보이지 않는 Claude Fable 가드레일에 사과함

요약

핵심 포인트

댓글