
미국 수출 통제 해제로 Anthropic, Claude Fable 5 서비스 재개 — 단일 필터로 소프트웨어 취약점 식별 및 악용 코드 작성
요약
미 상무부의 수출 통제 해제에 따라 Anthropic이 Claude Fable 5 서비스를 전 세계적으로 재개했습니다. 이번 조치는 소프트웨어 취약점 악용 방지를 위한 단일 안전 필터 도입을 통해 이루어졌습니다.
핵심 포인트
- 미 상무부의 수출 통제 철회로 Claude Fable 5 서비스 복구
- 취약점 식별 및 악용 코드 작성을 차단하는 새로운 안전 필터 도입
- 위험 요청 감지 시 이전 버전인 Opus 4.8로 재라우팅하는 방식 채택
- OpenAI, Kimi 등 타 모델들도 유사한 사이버 보안 취약점 보유 확인
Anthropic의 기업 블로그 게시물에 따르면, 미국 상무부(U.S. Department of Commerce)가 6월 12일에 해당 모델에 부과했던 수출 통제를 철회한 지 하루 만에 Anthropic이 Claude Fable 5에 대한 전 세계적 접근을 복구했습니다. 18일간의 대치 상태를 끝낸 해결책은 Amazon 연구원들이 지적한 한 가지 기술을 차단하도록 조정된 단일 안전 필터(safety filter)였으며, 상무부 산하의 AI 표준 및 혁신 센터(CAISI)는 통제가 해제되기 전 이 안전 장치들을 검토했습니다.
Fable 5는 오늘 Claude.ai, Claude Platform, Claude Code, Claude Cowork를 통해 다시 제공되며, AWS, Google Cloud, Microsoft Foundry에서의 접근은 뒤따를 예정입니다. 6월 12일의 지침은 Anthropic의 비시민권자 직원을 포함한 모든 외국인이 Fable 5 또는 그 기반이 되는 더 강력한 모델인 Mythos 5를 사용하는 것을 금지했습니다. 사용자의 국적을 확인할 방법이 없었기에 Anthropic은 두 모델 모두를 전 세계적으로 회수했습니다.
논란이 된 기술은 Amazon 연구원들에 의해 지적되었는데, 이들은 Fable 5가 소프트웨어 취약점(software vulnerabilities)을 식별하도록 유도하고, 한 사례에서는 이를 어떻게 악용할 수 있는지 보여주는 코드를 작성하도록 프롬프트(prompt)를 입력하는 방법을 찾아냈습니다. Anthropic은 해당 특정 기술을 99% 이상의 사례에서 차단하고, 차단된 요청을 이전 버전인 Opus 4.8로 재라우팅(reroute)하는 새로운 분류기(classifier)를 학습시켰습니다. 회사 측은 이러한 변화의 부작용으로 더 무해한 코딩 및 디버깅(debugging) 요청도 함께 걸러질 수 있다고 밝혔습니다.
이 분류기는 모델의 능력(capabilities)이 아닌 보고된 프롬프트를 대상으로 합니다. Fable 5는 여전히 Amazon 보고서에 명시된 취약점을 식별할 수 있습니다. 필터는 모델로부터 능력을 박탈하는 대신 요청을 감지하고 이를 재라우팅합니다. 탐지 기반의 안전 장치(detection-based safeguards)는 애초에 금지 조치를 촉발했던 바로 그 기술에 의해 무력화되었던 것이기도 하며, 알려진 한 가지 기술에 맞춰 조정된 분류기는 아직 발견되지 않은 기술에는 아무런 도움이 되지 않습니다. Anthropic은 어떤 모델도 탈옥(jailbreaks)에 대해 완전히 견고하게(robust) 만들어질 수 없음을 인정하며, 더 많은 사례가 나타날 것으로 예상하고 있습니다.
정부 및 Amazon과 함께 진행한 Anthropic의 검토 결과, Opus 4.8, OpenAI의 GPT-5.5, 그리고 중국의 Kimi K2.7이 동일한 취약점을 식별할 수 있음이 밝혀졌습니다. Haiku 4.5, Sonnet 4.6 및 여러 Opus 버전을 포함하여 테스트된 모든 모델이 단일 익스플로잇(exploit) 시연을 재현할 수 있었으며, 이는 Mythos급 사이버 역량이 과장되었다는 주장을 뒷받침합니다.
Fable 5의 복귀로 인해, Fable이 오프라인 상태인 동안 중국 연구소 Z.ai의 GLM-5.2가 기본적으로 점유하고 있던 벤치마크 순위들을 다시 탈환하게 되었으며, 여기에는 AA-Briefcase 다주간 과제 테스트(multi-week task test)에서의 최고 접근 가능 점수도 포함됩니다. 가드레일(guardrails)이 더 적고 Project Glasswing 파트너들에게만 제한적으로 제공되는 Mythos 5는 6월 26일에 미국의 특정 기관들에게 다시 제공되었습니다.
Anthropic은 또한 연구자들이 새로운 Fable 5 탈옥(jailbreaks) 사례를 보고할 수 있도록 HackerOne 프로그램을 개설했으며, 지정된 정부 파트너들에게 향후 출시될 프런티어 모델(frontier models)을 출시 전에 미리 테스트할 수 있는 우선 접근권을 제공하기로 약속했습니다. Pro, Max, Team 및 일부 Enterprise 플랜의 경우, 7월 7일까지 Fable 5는 주간 사용 한도의 최대 50%까지 반영되며, 그 이후에는 사용 크레딧(usage credits) 방식으로 전환됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Tom's Hardware의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기