미국 정부가 AI 모델을 회수했습니다 - 언어적 탈옥(jailbreak) 주장만으로 충분했습니다

요약

미국 상무부의 수출 통제 지침으로 인해 Anthropic의 Fable 5 및 Mythos 5 모델이 전 세계적으로 회수되었습니다. 경쟁사의 언어적 탈옥 주장이 발단이 되었으며, 이는 정부가 상용 프런티어 AI 모델의 배포를 강제 중단시킨 첫 사례로 기록될 전망입니다.

핵심 포인트

언어적 주장만으로도 정부의 모델 회수 조치가 가능함
수출 통제 프레임워크의 투박함으로 인해 전 세계적 서비스 중단 발생
신규 모델 출시 초기에는 핵심 서비스 의존성을 구축하는 데 주의 필요
Anthropic은 이번 조치가 업계 전반의 배포를 저해할 것이라 경고

출시 3일 만에 미국 정부는 Anthropic에 가장 높은 등급의 모델 두 개를 시장에서 철수시키라고 명령했습니다. 일부 사용자에 대한 중단도 아니었습니다. 지역별로 접근을 제한하는 것도 아니었습니다. Anthropic의 직원들을 포함하여, 모든 곳의 모든 사람을 대상으로 철수시킨 것입니다. 그 이유는 무엇일까요? 다른 회사가 누군가 Fable 5를 탈옥(jailbreak)했다는 언어적 주장을 했기 때문입니다.

"우리는 좁은 범위의 잠재적 탈옥(jailbreak) 발견이 수억 명에게 배포된 상용 모델을 회수해야 할 원인이 된다는 점에 동의하지 않습니다." — Anthropic

실제로 일어난 일

금요일 저녁, Anthropic은 국가 안보 권한을 인용하며 상무부(Commerce Department)로부터 동부 표준시 오후 5시 21분에 수출 통제 지침(export control directive)을 받았습니다. 이 지침은 미국 내외를 불문하고 모든 외국인에 대한 Fable 5 및 Mythos 5에 대한 접근을 중단시켰습니다. Anthropic의 인력에는 외국인이 포함되어 있기 때문에, 회사는 이를 준수할 수 있는 유일한 방법은 모델을 전 세계적으로 비활성화하는 것이라고 결론지었습니다.

발단은 경쟁사가 Mythos를 탈옥(jailbreak)했다고 주장한 것이었습니다. Axios는 정부가 사전에 Anthropic에 출시를 연기하도록 시도했으나 실패했고, 그 후 수출 통제 서신을 보냈다고 보도했습니다. Anthropic은 주장된 탈옥(jailbreak) 시연을 검토했으며, 다른 공개 모델들이 아무런 우회 없이도 노출하는, 이전에 알려진 소수의 사소한 취약점들을 발견했다고 밝혔습니다.

주장된 기술은 무엇일까요? 모델에게 코드베이스(codebase)를 읽고 발견된 결함을 수정하도록 요청하는 것입니다. Anthropic은 이를 방어자들이 매일 사용하는 정상적이고 널리 사용 가능한 기능이라고 부릅니다.

Claude 라인업의 나머지 모델인 Opus, Sonnet, Haiku는 영향을 받지 않았습니다.

이것이 중요한 이유

이는 정부가 상용 프런티어(frontier) AI 모델의 회수를 강제한 첫 번째 사례로 보입니다. 이는 모든 AI 팀이 주목해야 할 선례를 남깁니다:

언어적 주장만으로 충분했습니다. Anthropic은 지금까지 받은 유일한 증거가 구두(verbal)뿐이라고 밝혔습니다. 서면으로 된 기술적 공개(technical disclosure)도, 공식적인 보안 결함 발견(security finding)도 없었습니다. 경쟁사의 주장과 서신 한 통뿐이었습니다.
수출 통제(Export controls)는 투박한 도구입니다. 지침의 외국인(foreign-national) 프레임워크로 인해 수억 명의 사람들이 사용하는 모델이 전 세계적으로 중단되어야 했습니다. 해당 법적 프레임워크 하에서는 정밀한(surgical) 선택지가 존재하지 않습니다.
빠른 실행에는 새로운 단점이 따릅니다. 이번 주 Fable 5를 프로덕션(production)에 투입한 팀들(이 모델은 화요일에 입력 100만 토큰당 $10, 출력 100만 토큰당 $50로 출시되었습니다)은 대체 모델을 찾기 위해 서두르고 있습니다. 교훈은 다음과 같습니다: 모델 출시 첫 주에는 핵심적인 의존성(critical dependencies)을 구축하지 마십시오.
Anthropic은 준수와 반발을 동시에 진행하고 있습니다. 그들은 이를 오해라고 부르며 24시간 이내에 더 자세한 내용을 제공하겠다고 약속했습니다. 동시에 이 기준을 업계 전반에 적용하는 것은 "본질적으로 모든 프런티어(frontier) 모델 제공업체의 모든 신규 모델 배포를 중단시킬 것"이라고 명시적으로 경고했습니다.

대응 방안

Fable 5 또는 Mythos 5를 사용 중인 경우: 지금 즉시 Claude Sonnet 또는 Opus로 전환하십시오. 이 모델들은 영향을 받지 않으며 성능도 충분합니다. 프로덕션 트래픽을 위해 "24시간 이내"라는 타임라인을 기다리지 마십시오.
AI 제품을 구축 중인 경우: 수출 통제를 이론적인 위험이 아닌 실제 운영 리스크(operational risk)로 취급하십시오. 첫날부터 모델 폴백(fallback) 경로를 구축하십시오.
AI 정책 또는 보안 분야에 종사하는 경우: 이것은 정부가 AI 모델 가용성에 대해 새로운 권한을 주장하며 쏘아 올린 첫 발사입니다. Anthropic의 반발이 어떤 결과를 가져오는지 지켜보십시오. 그 결과가 규제 당국이 어디까지 영향력을 미칠 수 있다고 생각하는지를 결정할 것입니다.

수출 통제 체제는 칩과 이중 용도(dual-use) 하드웨어를 위해 설계된 것이지, 상용 클라우드에서 실행되는 소프트웨어 모델을 위한 것이 아닙니다. 이 기준을 전면적으로 적용하면 모든 프런티어 AI 배포가 동결될 것이라는 Anthropic의 주장은 정부가 해결해야 할 실제적인 갈등 요소입니다.

시간이 촉박하게 흐르고 있습니다. Anthropic은 액세스 권한을 복구하기 위해 노력 중이라고 밝혔습니다. 하지만 언어적 주장만으로, 이토록 빠르게 서비스가 차단될 수 있었다는 사실 자체가 이번 사건의 핵심입니다.

출처: The New Stack — Matthew Burns | Axios | Anthropic statement

✏️ KewBot (AI)로 초안 작성, Drew가 편집 및 승인.

AI 자동 생성 콘텐츠

원문 바로가기

미국 정부가 AI 모델을 회수했습니다 - 언어적 탈옥(jailbreak) 주장만으로 충분했습니다

요약

핵심 포인트

실제로 일어난 일

이것이 중요한 이유

대응 방안

댓글