"그들이 우리를 망쳤다": 성격 차이로 인해 Anthropic의 모델들이 오프라인 상태가 되다
요약
Anthropic의 모델 안전성 이슈와 미국 정부의 수출 통제 및 규제 움직임 사이의 갈등을 다룹니다. 모델의 탈옥(jailbreak) 방지 기술과 정부 관계자들과의 정치적 협상 상황을 조명합니다.
핵심 포인트
- Anthropic 모델의 탈옥 방지 및 안전성 확보 이슈
- 미국 상무부와 Anthropic 간의 규제 관련 논의
- 모델 정렬(Alignment)과 정부 규제 사이의 태도 차이
- Constitutional Classifiers를 통한 탈옥 대응 전략
2026년 6월 15일 - Link Blog
"그들이 우리를 망쳤다": 성격 차이로 인해 Anthropic의 모델들이 오프라인 상태가 되다. 이 Axios 기사에는 "행정부의 생각을 잘 아는 소식통"과 "Anthropic에 정통한 소식통"이라는 표현이 많이 등장하는데, 이는 지금까지 내가 본 미국 정부의 수출 통제 신화/우화(Mythos/Fable) 이야기 중 비하인드 스토리에 관한 가장 훌륭한 가십 모음입니다.
Logan Graham (나는 Anthropic의 Frontier Red Team을 이끌고 있습니다), Dave Orr (Safeguards 책임자, 전 Google DeepMind 엔지니어링 디렉터), 그리고 블로그의 인기 인물인 Nicholas Carlini가 오늘 워싱턴 D.C.에서 상무부(Commerce Department) 관계자들을 만날 예정이라고 보도되었습니다. 그들에게 행운을 빕니다!
(방금 Logan이 Boris Johnson 시대에 AI, 과학 및 기술 정책을 담당하는 "총리의 특별 보좌관"이었다는 사실을 알아챘습니다. 매우 중요한 정치적 경험을 가지고 있군요.)
이 결론 부분의 노트는 우리가 조만간 Fable을 다시 돌려받을 수 있을지에 대해 큰 낙관론을 주지는 않습니다:
결론: 한 가지 옵션은 Anthropic의 모델들이 탈옥(jailbreak)되지 않도록 확실히 하는 것이지만, 완벽한 탈옥 저항성은 불가능할 수도 있습니다. 그것이 불가능하다면, 행정부의 생각을 잘 아는 한 소식통은 이것이 단순히 태도의 문제로 귀결될 수 있다고 말했습니다. 즉, 무시당한다는 느낌 대신 "모두가 안전하고, 안심하며, 행복하다고 느끼는" 상태로 만드는 것입니다.
이 대목은 Anthropic이 2023년의 '정렬된 언어 모델에 대한 보편적이고 전이 가능한 적대적 공격(Universal and Transferable Adversarial Attacks on Aligned Language Models)' 논문에서 설명된 공격 유형을 성공적으로 해결한 적이 있는지 궁금하게 만듭니다.
그들의 Constitutional Classifiers 작업(올해 1월에 작성된 포스트)이 이와 관련이 있어 보입니다. 그들은 Claude Mythos에 대해 어떤 "보편적 탈옥(universal jailbreak)"도 발견되지 않았다고 계속 주장하며, 미국 정부의 대응을 촉발한 탈옥을 "잠재적인 좁은 범위의, 비보편적 탈옥(potential narrow, non-universal jailbreak)"으로 분류하고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 RSS: Simon Willison's Weblog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기