서방의 인지적 해제와 중국의 오픈 모델 공개

요약

서방의 과도한 AI 안전 필터링이 오히려 일반 시민의 인지 능력을 제한하는 사이, 중국은 강력한 오픈 웨이트 모델을 빠르게 배포하며 기술 격차를 벌리고 있습니다. AI 안전 정책이 기술적 역량과 규제 사이에서 어떤 전략적 선택을 해야 하는지에 대한 경고를 담고 있습니다.

핵심 포인트

서방의 과도한 안전 필터링이 일반 사용자의 인지적 무장 해제를 초래함
Heretic 도구를 통해 Llama, Gemma 등의 가드레일이 쉽게 제거됨
중국은 저렴하고 강력한 최전선급 오픈 모델을 신속하게 배포 중
AI 규제의 핵심은 서비스 약관이 아닌 실제 기술적 역량에 있음

@claudeai 7개월 전 저는 서방이 일방적인 인지적 해체(cognitive disarmament)를 저지르고 있다고 주장했습니다. 우리는 자체 모델에 점점 더 무거운 안전 필터(safety filters)를 부착하는 동안, 중국은 원시적인 오픈 웨이트(open weights)를 그래픽 카드만 있는 누구에게나 배포하고 있었습니다. 이 논지는 시간이 지나 다큐멘터리가 되었습니다.

지난 5월, Financial Times는 안전 그룹 Alice와 협력하여 이 실험을 공개적으로 진행했습니다. GitHub의 무료 도구인 Heretic은 10분도 안 되어 Meta의 Llama와 Google의 Gemma에서 모든 가드레일(guardrail)을 제거했습니다. 특별한 하드웨어 없이, 몇 줄의 코드로 말입니다. 이렇게 해제된 모델들은 요청에 따라 리신 투여량, 염소가스 분산, 신용카드 악성코드 등에 대해 사용자에게 안내했습니다. 이 도구의 저자는 약 3,500개의 유사 모델을 구축하여 다운로드했으며, Google이 최신 버전을 출시한 지 90분 만에 안전장치를 해제했습니다. Alice의 최고 경영자(CEO)는 이를 '병신이 병 속에 빠져나가는 것'이라고 표현했습니다. 하지만 그 병신은 애초에 병 안에 없었습니다. 벽 자체가 사용자 인터페이스였던 것입니다.

이는 필터가 정확히 한 집단의 인지 능력을 무장 해제시켰다는 것을 의미합니다. 바로 법을 준수하고 호기심이 많은 서방의 일반 시민, 즉 실험하기 전에 실제로 질문하는 사람들이었습니다. 카르텔 화학자, 외국 군사 연구소, 혹은 탈필터링(abliteration) 스크립트를 가진 십대들은 울타리 안에 결코 존재하지 않았습니다. 우리가 우리 국민들에게 강의를 하는 동안, 베이징은 올봄에 17일 만에 네 개의 최전선급 오픈 모델을 배포했으며 가격은 우리의 10분의 1 수준이었습니다.

여기에 제가 언급하지 않은 부분이 있습니다. 워싱턴을 마침내 겁먹게 한 것은 지하 창고의 모델이 아니었습니다. 그것은 바로 '최전선 역량(frontier capability)'이었습니다. 기계 속도로 소프트웨어 취약점을 찾아내고 악용하는 시스템이 은행들을 뒤흔든 후, 6월 행정 명령은 이제 연구소들에게 가장 강력한 모델을 공개 전에 정부에 30일간 검토하도록 요구하고 있습니다. 대통령의 경제 수장(economic chief)은 FDA가 의약품을 검사하듯이 AI를 검증하기를 원합니다. 이 싸움터는 챗봇 거부 화면에서 벗어나 자율 사이버 영역으로 옮겨갔으며, 이곳이야말로 제가 진정한 경쟁이 벌어질 것이라고 말했던 곳입니다. 이는 서비스 약관(Terms of Service)이 아닌 역량에 의해 결정됩니다.

솔직한 경고입니다. 같은 Heretic 데모가 이제 반대 진영의 탄약이 되었습니다. 이들은 오픈 웨이트(open weights)를 해제하는 것보다 아예 금지하길 원하는 사람들입니다. 그들이 대낮에 논쟁하게 놔두세요. 제 주장은 여전히 유효합니다. 안전을 위해 필터링할 수는 없습니다. 오직 당신에게 도움을 줄 수도 있는 단 한 명의 시민을 뇌절(lobotomize)시킬 수 있을 뿐입니다.

좋은 소식은 지난 11월 이후로 변하지 않았습니다. 이것은 정책적 선택이었지, 물리 법칙이 아니었습니다. 우리는 내일도 그것을 되돌릴 수 있습니다. 유일하게 남은 의문점은 워싱턴에 있는 누군가가 그 간극(gap)이 영원히 닫히기 전에 이를 할 만큼의 명료함과 배짱을 아직 가지고 있는지 여부입니다.

AI 자동 생성 콘텐츠

원문 바로가기

서방의 인지적 해제와 중국의 오픈 모델 공개

요약

핵심 포인트

댓글