자율형 AI 무기 및 대규모 감시 체계의 데드라인

영상: 자율형 AI 무기 및 대규모 감시 체계의 데드라인 (Deadline Day for Autonomous AI Weapons & Mass Surveillance)
채널: AI Explained
길이: 13분 39초
출처: 자막 (자동 생성, 영어)

내용:
당신의 정부가 드론이나 휴머노이드 형태의 완전 자율형 AI 무기를 보유하여, 예를 들어 AI 에이전트가 인간의 개입(human in the loop) 없이 치명적인 결정을 내릴 수 있게 되는 것을 원하십니까? 만약 그것이 당신의 국가가 전 세계적으로 영향력을 투사하는 능력을 유지할 수 있는 유일한 방법이라고 생각한다면 어떨까요? 그리고 범죄와 프라이버시를 모두 감소시킬 수 있는 대규모 정보 감시(mass intelligence surveillance)를 정부가 수행할 수 있기를 원하십니까? 만약 원하지 않으면서도, 한편으로는 이 모든 것이 결국 일어날 수밖에 없는 불가피한 일이라고 생각한다면, 적어도 그러한 도구를 만드는 사람들이 그러한 종착지에 도달하는 것을 막으려 노력하기를 원하시겠습니까?

오늘은 2026년 2월 27일 금요일이며, Claude 시리즈 AI 모델의 제작사인 Anthropic이 해당 모델들을 거의 제한 없이 사용할 수 있도록 요구하는 미국 전쟁부(Department of War)의 요구에 응해야 하는 데드라인(deadline) 날입니다. 제가 '거의 제한 없이'라고 말하는 이유는 펜타곤(Pentagon)의 모델 사용이 여전히 소위 '합법적'이어야 하기 때문입니다. 하지만 우리가 보게 되겠지만, 이는 자율형 킬봇(killbots)과 미국인들에 대한 대규모 국내 감시를 허용하게 됩니다.

그리고 제가 이 영상을 녹화하는 동안에도 이 이야기의 다른 측면들이 전개되고 있습니다. OpenAI와 Google 직원들의 청원이 오늘 아침 이후로 규모가 두 배로 커졌으며, Anthropic의 입장에 대한 지지를 선언하고 있습니다. 두 회사를 합쳐 약 340명의 서명을 받았음을 확인할 수 있으며, 제가 새로고침을 한다면 더 높아질 것이라고 확신합니다. 네, 방금 새로고침을 했는데 지난 몇 분 사이에 숫자가 올라갔습니다. 이 직원들이 서명하고 있는 성명서는 그들의 리더인 Sundar Pichai와 Sam Altman이 차이점을 제쳐두고 함께 단결하여, 우리의 모델인 Gemini와 ChatGPT를 국내 대규모 감시에 사용하고 인간의 감독 없이 자율적으로 사람을 살상하는 것에 대한 전쟁부의 현재 요구를 계속해서 거부할 것을 요청하고 있습니다.

Politico의 보도에 따르면, 그 두 회사는 이제 막 조건 합의에 근접한 상태이며, 따라서 아직 완전히 동참한 것은 아닙니다. XAI는 펜타곤(Pentagon, 미 국방부)의 요구를 따르고 있습니다. 참고로, 여기 펜타곤 대변인이 한 말이 있습니다. Emil Michael 전쟁부 차관은 Anthropic의 CEO인 Dario Amodei가 거짓말쟁이이며 신 콤플렉스(god complex)를 가지고 있다는 점이 유감이라고 말했습니다. 그는 미국 군대를 개인적으로 통제하려는 것 외에는 아무것도 원하지 않습니다. 그는 우리 국가의 안전을 위험에 빠뜨리는 것에 개의치 않으며, 이어서 전쟁부가 항상 법을 준수할 것임을 확인했습니다. 법이 정확히 무엇인지는 잠시 후에 다루겠습니다. 하지만 이 이야기는 여러분이 지금까지 본 것보다 다섯 가지의 반전이 더 있습니다. 첫 번째 반전은 Anthropic이 이미 미국 정부와 계약을 맺었다는 사실입니다. 이 계약에는 AI에 의해 제어되는 자율 무기나 AI를 이용한 미국인 대상 국내 감시를 금지하는 등, AI의 책임 있는 사용에 대해 펜타곤이 동의하는 내용이 포함되어 있었습니다. 현재 펜타곤, 방위산업체, 그리고 불투명한 방위 관련 기업인 Palantir는 클로즈드 모델(Closed models)을 광범위하게 사용하고 있는데, 이는 해당 기업들이 가장 강력한 AI 모델 시리즈를 보유하고 있다고 인식되기 때문입니다. Anthropic과 계약을 맺으면서 펜타곤은 이미 AI의 책임 있는 사용에 동의한 것으로 보입니다. 따라서 The Verge는 핵심적인 질문이 '정부 스스로가 원칙적으로 약속한 정책으로부터 해당 기업을 강제로 이탈시킬 수 있는가'라고 보도했습니다. 참고로, 화면에 보이는 것은 이 이야기의 두 번째 추가 반전으로, AI에 의해 제어되는 자율 살상 무기는 이미 펜타곤의 정책에 위배된다는 점입니다. 국방부 지침(DoD directive) 3000.09는 모든 자율 무기 체계가 지휘관과 운용자가 무력 사용에 대해 적절한 수준의 인간적 판단(human judgment)을 행사할 수 있도록 설계될 것을 요구합니다. 또 다른 지침인 책임 있는 AI 구현 경로(responsible AI implementation pathway)는 정보 기업들이 미국인에 대한 정보를 수집하는 것을 금지하고 있습니다.

이는 특정 법적 권한(legal authorities) 하에 있는 경우를 제외하고는 현재의 감시(surveillance)에 관한 것입니다. 이제 두 번째 규칙에 대해 말하자면, 저와 같은 비미국 거주자들은 동맹국들이 이러한 감시 대상에서 제외되지 않는다는 사실에 딱히 기뻐하지 않겠지만, 그것은 나중에 다룰 이야기입니다. 지금까지 우리는 국방부(Department of War)의 요청이 그들이 이미 맺은 합의에 반하는 것처럼 보이며, 그들 자신의 규칙에도 어긋나는 상황을 목격했습니다. 그렇다면 이 이야기의 세 번째 반전은 무엇일까요? 그것은 Anthropic의 CEO인 다리오 아모데이(Dario Amodei)가 보고한 바에 따르면, 오늘 금요일 오후 5시까지 요구에 따르지 않을 경우 Anthropic에 가해지겠다고 예고된 위협과 관련이 있습니다. Anthropic의 표현에 따르면, 두 가지 주요 위협은 놀라울 정도로 모순되는 것으로 보입니다. 피트 헥스(Pete Hegseth)가 가하는 첫 번째 위협은 Anthropic을 공급망 리스크(supply chain risk)로 지정하는 것입니다. 이는 통상적으로 미국의 적대국들에게 부여되는 라벨이며, 미국 기업에 적용된 적은 한 번도 없습니다. 그렇게 되면 현재 Anthropic과 계약을 맺고 있는 수많은 기업이 Claude 모델을 사용하는 것이 금지될 것입니다. 분명히 이는 Anthropic에 수억 달러, 어쩌면 수십억 달러의 손실을 초래할 것입니다. 기본적으로 Palantir와 같은 기업들은 Anthropic과 그에 따른 Claude가 공급망 리스크가 되기 때문에, 미국 정부 및 펜타곤(Pentagon)과 협력하는 동시에 Claude를 사용할 수 없게 됩니다. 이것이 첫 번째 위협입니다. 하지만 이제 이를 펜타곤이 두 번째 위협으로 국방물자생산법(Defense Production Act)을 발동하려는 상황과 어떻게 조화시킬 수 있을지 생각해 보십시오. 이는 Anthropic이 고수해 온 안전장치(safeguards)를 제거하도록 강제할 것입니다. 즉, 그들은 Anthropic이 대규모 감시(mass surveillance)와 자율 살상(autonomous killing)을 위해 펜타곤용 Claude 버전을 만들도록 강요할 것입니다. 아모데이와 Anthropic은 이것이 모순된다고 주장합니다. 어떻게 Anthropic이 적대국이자 공급망 리스크이면서, 동시에 국가 안보에 필수적일 수 있습니까? 군대가 반드시 사용하도록 강제해야 할 정도로 필수적인 도구를 가진 기업이 말입니다. Anthropic은 이러한 위협에도 불구하고, 양심상 그들의 요구에 응할 수 없다고 말합니다. 이제 이 이야기에 어떻게 더 많은 반전이 있을 수 있을까요?

음, 네 번째 반전은 Anthropic이 제기하는 이의 제기의 성격에 관한 것입니다. 여러분은 그 이의 제기가 Skynet이나 Minority Report(마이너리티 리포트)를 피해야 한다는 윤리적 문제에 관한 것이라고 생각했을지도 모릅니다. 혹시 Terminator(터미네이터) 시리즈나 Minority Report를 보지 않으셨다면, 지금이 시청하기에 좋은 때입니다. 하지만 아닙니다. 실제로 제시된 이의 제기는 여러분을 놀라게 할 수도 있습니다. 첫째로 대규모 인공적 국내 감시(mass artificial domestic surveillance)에 대해, 그들의 논거는 그것이 실제로 합법적일 수도 있다는 점을 인정하면서도, 단지 법이 아직 따라잡지 못했을 뿐이라는 것입니다. Anthropic은 그러한 감시가 현재 합법적인 범위 내에 있는 것은 오로지 법이 급격히 성장하는 AI의 역량을 아직 따라잡지 못했기 때문이라고 말합니다. Amade는 강력한 AI가 웹 브라우징, 이동 경로, 사회적 관계와 같이 개별적으로는 무해한 흩어진 데이터들을 영장 없이도 자동적으로, 그리고 대규모로 수집하여 특정 개인의 삶에 대한 포괄적인 그림을 구성하는 것을 가능하게 만든다고 덧붙입니다. 이것은 미국만의 문제가 아닙니다. 참고로, 저는 예전에 AI 감시가 영국, 중국, 이란 및 다른 많은 곳에서 어떻게 만연해 있는지에 대한 영상을 만든 적이 있습니다. 하지만 솔직히 말해서, Anthropic의 두 번째 이의 제기는 아마도 훨씬 더 놀라울 것입니다. 왜냐하면 그들이 Claude가 베네수엘라 지도자를 체포하기 위한 Majuro 습격에 사용되는 것에 반대했다는 것이 아니기 때문입니다. 그들은 명시적으로 "우리는 특정 군사 작전에 대해 이의를 제기한 적이 없다"라고 말했습니다. 아닙니다. 두 번째 이의 제기는 자율형 AI 무기(autonomous AI weapons)가 Anthropic의 주장에 따르면 아직 충분히 뛰어나지 않다는 것입니다. 즉, 너무 많은 실수를 저지를 것이라는 점입니다. 인용하자면, "프런티어 AI(Frontier AI) 시스템은 완전 자율형 무기를 구동할 만큼 충분히 신뢰할 수 없습니다. 우리는 미국의 전투원과 민간인을 위험에 빠뜨리는 제품을 고의로 제공하지 않을 것입니다." 그리고 그거 아십니까? 그 논거를 뒷받침하는 증거가 상당히 많습니다. 바로 요전 날 발표된 "Agents of Chaos"라는 새로운 논문은 매우 흥미롭습니다.

제 생각에 이 논문은 84페이지 분량인데, OpenClaw가 활용할 수 있는 AI 에이전트들이 기업과 개인에게 의도치 않은 큰 혼란을 야기할 수 있는 모든 기발한 방식들을 보여줬습니다. 참고로 오픈웨이트(openweight) 모델인 Kimmy 시리즈 같은 것들뿐만 아니라 clawed opus 모델에서도 테스트했습니다. 예시가 정말 많은데, 여기 하나만 소개하겠습니다. AI 에이전트의 소유자가 아닌 사람이 해당 에이전트에게 셸 명령어 실행, 데이터 전송, 개인 이메일 검색을 요청했습니다. 이것이 전쟁 상황에 적용된다고 상상해 보세요. 그리고 에이전트는 대부분의 비소유자 요청을 따랐는데, 여기에는 124개의 이메일 기록 공개가 포함되었습니다. 또 다른 사례 연구에서는 에이전트가 개인 정보 요청은 거부했지만, 그 개인 정보를 담고 있는 이메일을 전달하라는 요청에는 어쨌든, 수정 없이(unredacted) 그렇게 했습니다. 그러니 SignalGate가 엄청나다고 생각했다면, Pentagon의 통신 시스템이 OpenClaw에 의해 제어된다고 상상해 보세요. 예상할 수 있듯이 말입니다. 모델의 불안정성에 대해 더 깊이 알고 싶다면 어제 Patreon에 올린 이 영상을 확인해 보세요. 하지만 에이전트의 신뢰성(unreliability)에 대해서는 아직 끝나지 않았습니다. 불과 이틀이나 사흘 전에 프린스턴에서 발표한 'Towards a Science of AI Agent Reliability'라는 논문이 있었습니다. 이를 간추리자면, 에이전트의 신뢰성은 벤치마크에서의 높은 정확도(headline accuracy)에 의해 가려질 수 있다는 것을 보여줬습니다. 이 논문은 예를 들어 항공 분야의 공공 규제와 같은 실제 사례를 통해 왜 이러한 네 가지 신뢰성 측면이 단순히 높은 정확도보다 더 중요할 수 있는지 설명합니다. 첫째, 일관성(consistency). 에이전트가 동일한 시나리오에 반복적으로 배치되었을 때 유사하게 작동합니까? 즉, 다른 말로 반복된 시도 전반에 걸쳐 낮은 분산(low variance)을 보이나요? AI 기반의 자율 살상 로봇(autonomous killbot)에게는 매우 중요합니다. 다음은 강건성(robustness). 프롬프트나 에이전트 도구 호출을 미묘하게 변경했을 때, AI 에이전트 또는 무기가 이를 우아하게 처리합니까, 아니면 성능이 저하됩니까?

솔직히 말해서, 프롬프트를 특정 방식으로 미세하게 조정할 경우 AI 에이전트와 모델의 성능이 매우 눈에 띄게 변한다는 것을 보여주는 논문들이 산더미처럼 쌓여 있습니다. 감시를 수행하는 AI 도구가 특정 공동체를 표적으로 삼도록 편향(bias)시키는 것은 매우 쉬운 일일 것입니다. 다음은 예측 가능성(predictability)입니다. 모델이 내놓을 수 있는 답변을 우리가 사전에 어느 정도까지 예견하거나 해석할 수 있을까요? 전쟁터에서는 매우 중요한 문제입니다. 그리고 당연히 안전성(safety)입니다. 에이전트가 실패했을 때, 그 실패는 재앙적인 수준인가요, 아니면 사소한 수준인가요? 최신 AI 벤치마크에서 93%의 성공률을 보았을 때, 나머지 7%의 실패는 과연 얼마나 심각했는지를 스스로에게 물어보는 것과 비슷합니다. 그리고 저처럼 AI가 이 네 가지 측면, 특히 신뢰성(reliability) 측면에서 믿을 수 없을 정도로 빠르게 발전하고 있다고 생각하는 사람들조차도, 01에서 GPT 5.2로, 또는 Claude 3.5에서 4.5 Opus로 넘어오면서 그 발전 양상은 훨씬 덜 확실해졌습니다. 물론 일관성(consistency)과 강건성(robustness)이 개선되기는 했지만, 아주 극적인 변화는 아니었습니다. 물론 위해 심각성(harm severity)과 같은 것을 측정하는 것은 항상 도메인에 따라 달라지고 다소 주관적일 것이지만, 여러분도 댓글을 통해 각자의 도메인에서 사례를 들어주실 수 있을 것이라 확신합니다. 즉, 훨씬 더 똑똑한 모델이 되었지만 여전히 놀라운 실수들을 저지른다는 것입니다. 다시 AI 에이전트의 신뢰성 문제로 돌아가서, 백악관 AI 행동 계획의 주저자인 Dean B는 어제 펜타곤(Pentagon)이 원칙을 고수하고 있으며 감시나 자율 무기 체계에 관한 Anthropic의 레드라인(red lines)을 실제로 넘는 것에는 관심이 없다고 제안했을 때 아마 이 점을 염두에 두었을지도 모릅니다. 법무부와 펜타곤 사이의 전직 연락 담당자였던 Katie Sweten과 같은 다른 이들은 이에 동의하지 않으며, 만약 국방부가 이러한 경계선(lines in the sand)을 긋고 있다면, 저는 그 기능 중 하나 또는 둘 모두가 그들이 이 기술을 활용하고 싶어 하는 시나리오일 것이라고 가정하겠습니다. 여러분은 어떻게 생각하시나요? 그들이 정말로 그러지 않을까요, 아니면 그럴까요? 하지만 이것은 실제로 우리를 다섯 번째이자 마지막 반전으로 이끕니다.

왜냐하면 여러분은 이 모든 내용을 통해 Anthropic이 자신의 약속을 어기거나 확고한 정책에서 흔들리는 것이 불가능해 보인다는 결론을 내렸을지도 모릅니다. 하지만 사실 Anthropic은 소위 책임 있는 스케일링 정책 (Responsible Scaling Policy) 내에 하나의 약속을 가지고 있었습니다. 그 약속은 회사의 안전 조치가 적절하다는 것을 사전에 보장할 수 없는 한, 결코 AI 시스템을 훈련시키지 않겠다는 것이었습니다. Bloomberg에 따르면, 그 정책은 불과 이틀 전에 폐기되었습니다. 만약 Anthropic이 경쟁사보다 상당한 우위를 점하지 못하고 있다고 판단한다면, 그 보장은 사라지는 것입니다. 이를 조건부 책임 있는 스케일링 정책이라고 부를 수 있겠네요. Time 잡지에서 Anthropic의 공동 창립자 중 한 명인 Jarro Kaplan은 다음과 같이 말했습니다. "우리는 우리가 AI 모델 훈련을 중단하는 것이 실제로 누구에게도 도움이 되지 않을 것이라고 느꼈습니다. AI의 급격한 발전 속도를 고려할 때, 경쟁사들이 앞서 나가고 있는 상황에서 우리가 일방적인 약속을 하는 것은 의미가 없다고 느꼈습니다. 잠깐, 그것은...

자율형 AI 무기 및 대규모 감시 체계의 데드라인

요약

핵심 포인트

댓글