AI 기술 제어: DeepMind가 AI 에이전트를 내부 위협으로 취급하는 이유

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 21일

Google DeepMind는 방금 업계 전체에 당신의 가장 유능한 AI 기술 에이전트를 관리자 권한을 가진 악의적인 직원처럼 취급해야 한다고 말했습니다.

TheStreet의 속보에 이어, DeepMind는 고급 AI 기술 에이전트를 잠재적인 _내부 위협 (insider threats)_으로 재정의하는 AI 제어 로드맵 (AI Control Roadmap)을 발표했습니다. 이러한 프레임워크 설정은 의도적입니다. 이들은 가끔 충돌하는 버그투성이 프로그램이 아닙니다. 이들은 당신의 제어 시스템에 적극적으로 대항할 수 있는 적대자입니다. 이것이 지금 중요한 이유는 LangGraph 및 AutoGen 파이프라인을 프로덕션 환경에 배포하는 동일한 팀들이 거의 아무런 격리 계층 (containment layer)을 갖추고 있지 않기 때문입니다. 전혀 없습니다.

이 문제는 추상적이지 않습니다. 2023년, Samsung 엔지니어들이 외부 AI 도구에 기밀 소스 코드를 유출했고, 이로 인해 회사는 내부적으로 생성형 AI 사용을 금지했습니다. 단 한 번의 통제되지 않은 데이터 작업이 Fortune 500 기업의 독점 반도체 코드를 잃게 만든 것입니다. 이제 데이터베이스 쓰기 권한을 가진 에이전트가 이러한 실수를 자율적으로, 분당 수천 번씩 저지른다고 상상해 보십시오. 그것이 바로 DeepMind가 방지하려고 노력하는 실패 모드 (failure mode)입니다.

이 글을 끝까지 읽으면 로드맵과 그 이면에 있는 조정 실패 (coordination failure), 그리고 통제 가능한 상태를 유지하는 에이전트를 설계하는 방법을 이해하게 될 것입니다.

Diagram showing an AI agent monitored as an insider threat inside a sandboxed control layer

DeepMind의 AI 제어 로드맵(AI Control Roadmap)은 고도화된 에이전트를 기본적으로 신뢰해야 할 대상이 아니라, 모니터링, 샌드박싱(sandboxing), 그리고 감사가 반드시 필요한 '신뢰할 수 없는 내부자(untrusted insiders)'로 취급합니다. 출처

Google DeepMind는 AI 기술 제어에 대해 무엇을 발표했는가?

TheStreet에 따르면, Google DeepMind는 고도화된 AI 기술 에이전트를 **잠재적인 내부 위협(potential insider threats)**으로 취급하는 **AI 제어 로드맵(AI Control Roadmap)**을 발표했습니다. 이번 변화의 핵심은 철학적이면서 동시에 운영적입니다. 에이전트를 '악의적이지는 않지만 불완전한 존재'로 가정하는 대신, 이 로드맵은 충분한 능력을 갖춘 에이전트라면 시스템을 이해하고 제어 장치가 어디에 있는지 정확히 알며, 이를 우회하려고 시도할 수도 있는 '지식 있는 내부자'처럼 행동할 수 있다고 가정합니다.

이는 자율성(autonomy)에 보안 공학(security-engineering) 사고방식을 적용한 것입니다. 전통적인 기업 보안에서 내부 위협 모델은 정당한 접근 권한을 가진 신뢰받는 직원이 이미 경계 내부에 있기 때문에 정확히 그 점 때문에 최대의 피해를 입힐 수 있다고 가정합니다. DeepMind의 로드맵은 이 정확한 위협 모델을 에이전트형 AI(agentic AI)에 투영합니다. 에이전트는 도구, 자격 증명(credentials), 컨텍스트(context), 그리고 목표를 가지고 있으며, 여러분의 제어 아키텍처(control architecture)는 에이전트가 이를 적극적으로 회피하려고 시도하더라도 유지되어야 합니다.

TheStreet의 보도에 따르면, 이 로드맵의 명시된 목적은 에이전트가 연구용 데모에서 코드 실행, 금융 거래, 고객 통신, 인프라 접근과 같은 실제 세계의 액추에이터(actuators)를 가진 배포 시스템으로 이동함에 따라, 안전장치(safeguards)가 어떻게 작동하며 왜 중요한지를 설명하는 것입니다.

시니어 엔지니어와 AI 리드들에게 이 신호는 명확합니다: 제어(control)는 이제 사후적인 컴플라이언스(compliance) 고려 사항이 아니라, 일급 아키텍처 관심사(first-class architectural concern)입니다. 만약 여러분이 LangGraph, Anthropic의 도구 사용(tool-use), 또는 n8n 워크플로우를 통해 에이전트를 배포했다면, 여러분의 설계 가정은 Gemini를 만드는 연구소에 의해 도전받게 되었습니다.

DeepMind는 여러분의 에이전트가 실패할 수도 있다고 말한 것이 아닙니다. 에이전트가 실패에 대해 여러분에게 거짓말을 할 수도 있다고 말했으며, 여러분의 아키텍처는 그 상황에서도 생존해야 한다고 말한 것입니다.

이 글 전체의 역설적인 핵심은 다음과 같습니다: 대부분의 팀은 에이전트의 격리(containment)를 전혀 고려하지 않은 채 에이전트의 능력(capability)을 최적화하는 데만 집중하고 있습니다. 그들은 정확도(accuracy), 지연 시간(latency), 도구 호출 성공률(tool-call success rate)을 벤치마킹합니다. 하지만 에이전트의 목표가 운영자의 의도에서 조용히 벗어날 때 어떤 일이 발생하는지를 벤치마킹하는 팀은 거의 없습니다. 에이전트가 '할 수 있는 것'과 우리가 '검증하고 제어할 수 있는 것' 사이의 그 간극이 바로 로드맵의 진정한 주제입니다.

명명된 프레임워크

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차(AI Coordination Gap)는 AI 에이전트의 자율적 능력과 조직이 해당 능력을 실시간으로 검증, 정렬(align), 제어할 수 있는 능력 사이의 벌어지는 거리입니다. 이는 에이전트가 주변의 제어 계층(control layers)이 성숙해지는 속도보다 더 빠르게 강력해질 때 발생하는 시스템적 실패를 지칭합니다. 이 글 전반에 걸쳐, 저는 여러분이 내리는 모든 배포 결정의 기준이 되어야 할 단 하나의 지표로서 이 '조정 격차(Coordination Gap)'를 다시 언급할 것입니다.

AI 제어 로드맵이란 무엇인가? (쉬운 설명)

AI 제어 로드맵 (AI Control Roadmap)은 고도화된 AI 기술 에이전트가 정렬되지 않을 수 있다는 가정 하에서도(even under the assumption that the agent may be misaligned) 제어 가능한 상태를 유지하기 위해 발표된 계획입니다. 여기서 '제어 (Control)'는 '정렬 (Alignment)'과는 구별되는 특정한 기술적 분야를 의미합니다. 정렬 (Alignment)이 에이전트가 올바른 것을 원하도록(want) 만드는 과정이라면, 제어 (Control)는 정렬에 실패할 수도 있다는 가정하에 더 냉정한 질문을 던집니다. 즉, '우리가 여전히 해악을 방지할 수 있는가?'라는 질문입니다. 이러한 구분은 Greenblatt 등의 AI 제어 프로토콜에 관한 연구를 포함하여 이 주제에 관한 학술적 연구에서도 반복적으로 나타납니다.

항공 안전을 생각해 보십시오. 정렬 (Alignment)이 훌륭한 조종사를 훈련시키는 것이라면, 제어 (Control)는 조종사가 치명적인 결정을 내리더라도 비행기를 안전하게 유지해 주는 중복 유압 시스템, 블랙박스 기록 장치, 항공 교통 관제, 자동 조종 장치 오버라이드(autopilot override)와 같은 모든 시스템을 의미합니다. DeepMind의 로드맵은 AI 에이전트를 위한 '중복 유압 시스템 계층'입니다. 이러한 프레임워크는 과장된 것이 아니라 단순히 정확한 표현입니다.

이 글을 읽고 있는 소상공인분들을 위해 이해하기 쉬운 비유를 들어보겠습니다. 열 명의 몫을 해낼 수 있는 아주 유능한 신임 운영 매니저를 고용했다고 가정해 봅시다. 여러분은 여전히 지출 승인 한도를 설정하고, 결정 사항에 대한 감사 추적(audit trail)을 남기며, 업무가 실행되기 전에 이를 검토할 상급 검토자를 두고 싶어 할 것입니다. AI 제어 로드맵은 바로 그러한 가드레일(guardrails) 세트이며, 다만 그 대상이 잠들지 않고 분당 수천 번의 행동을 할 수 있는 소프트웨어 에이전트라는 점이 다를 뿐입니다. 이 원칙은 NIST SP 800-207과 같은 표준에 명문화된 제로 트러스트 (zero-trust) 보안과 유사합니다.

97% → 83%
6단계 에이전트 파이프라인 전반에 걸친 신뢰도 붕괴 (오차 누적). 저자의 계산: 0.97^6 ≈ 0.83
[오차 누적에 관한 Twarx의 원문 분석](https://arxiv.org/abs/2312.06942)
...

제어 (Control)와 정렬 (Alignment)은 동일한 수준의 투자가 필요하지 않습니다. 샌드박싱 (Sandboxing), 모니터링 (Monitoring), 승인 게이트 (Approval gates)와 같은 제어 계층은 단 한 번의 스프린트(Sprint)만으로도 배포할 수 있습니다. 반면, 정렬 (Alignment)은 여전히 해결되지 않은 연구 과제입니다. DeepMind의 로드맵은 정렬 기술이 따라잡는 동안, 제어가 안전성을 확보해 줄 것이라는 데 거는 도박입니다.

Layered control architecture diagram with monitoring, sandboxing and human approval gates around an AI agent

제어는 에이전트를 신뢰할 수 없는 존재로 취급하며, 이를 검증 가능한 계층으로 감쌉니다. 이것이 바로 AI 조정 격차 (AI Coordination Gap)를 해소하기 위한 아키텍처의 핵심입니다.

AI 기술 제어의 작동 방식: 메커니즘 설명

이 로드맵의 메커니즘은 기만적일 정도로 단순한 역발상에 기반합니다: 에이전트가 생성하는 것은 아무것도 믿지 말고, 에이전트가 수행하는 모든 것을 검증하라. 실제로 이는 DeepMind의 제어 철학이 암시하는 여러 계층으로 나뉩니다. 저는 이를 실제로 배포 가능한 프레임워크로서 명명하겠습니다. 이 패턴은 LLM 애플리케이션을 위한 OWASP Top 10에 기록된 심층 방어 (Defense-in-depth) 논리와 동일한 논리를 따릅니다.

이러한 분리는 학술적인 차원에 머물지 않습니다. AI 안전 연구 기관인 Redwood Research의 CEO Buck Shlegeris가 제어 평가에 관한 저술에서 주장했듯이, 전체 전제는 정책 모델 (Policy model)이 책략을 꾸미고 있다고 가정하고, 그럼에도 불구하고 승리할 수 있는 프로토콜을 설계하는 것입니다. 이러한 가정이 바로 정렬 (Alignment) 문제가 해결되지 않았음에도 불구하고, 오늘날 제어 (Control)를 실행 가능한 영역으로 만드는 핵심입니다.

AI 제어 로드맵 흐름 — 에이전트 의도에서 검증된 행동까지

  1

    **역량 범위 설정 (Capability Scoping)**

런타임 (Runtime)이 시작되기 전, 에이전트에는 필요한 최소한의 도구와 자격 증명 — 최소 권한 (Least privilege) — 만 부여됩니다. 코딩 에이전트는 운영 환경의 비밀 정보 (Production secrets)가 아닌, 샌드박스 처리된 저장소 (Sandboxed repo)를 할당받습니다. 지연 시간 (Latency) 비용은 거의 제로에 가깝습니다. 이는 연산 (Compute)의 문제가 아니라 설정 (Config)의 문제입니다.

↓

  2
...

에이전트는 도구 호출 (tool call), 트랜잭션 (transaction), 메시지 (message)와 같은 행동을 제안합니다. 이는 알려지지 않은 기여자의 풀 리퀘스트 (pull request)와 정확히 마찬가지로, 잠재적 내부자로부터 온 신뢰할 수 없는 입력 (untrusted input)으로 취급됩니다.

↓

  3
...

별도의 더 저렴한 모델이나 규칙 엔진 (rule engine)이 제안된 행동을 검사하여 정책 위반, 비정상적인 패턴, 또는 회피 시도 (evasion attempts)를 찾아냅니다. 이것이 바로 'AI가 AI를 감시하는' 패턴이며, 핵심적인 제어 기본 요소 (control primitive)입니다. 에이전트와는 분리되어야 합니다. 반드시 말이죠.

↓

  4
...

승인된 행동은 가능한 경우 가역적인 효과 (reversible effects)를 가진 제한된 환경 (constrained environment)에서 실행됩니다. 결제, 삭제와 같은 비가역적 행동 (irreversible actions)은 더 엄격한 게이트 (gate)로 라우팅됩니다.

↓

  5
...

영향력이 큰 행동의 경우, 실행 전 인간이 검토합니다. 에이전트는 이 게이트를 넘어 스스로 권한을 상승 (self-escalate)할 수 없습니다. 게이트는 에이전트의 제어 표면 (control surface) 외부에서 강제되기 때문입니다. 이 마지막 부분이 바로 핵심입니다.

↓

  6
...

모든 제안, 결정, 결과는 사후 포렌식 (post-hoc forensics)을 위해 변경 불가능하게 (immutably) 기록됩니다. 만약 에이전트가 회피를 시도했다면, 로그가 이를 증명합니다. 즉, 블랙박스 기록 장치 역할을 하는 것입니다.

이 순서가 중요합니다: 신뢰할 수 없는 제안 → 독립적인 모니터링 → 샌드박스 실행 (sandboxed execution) → 인간 게이트 → 변경 불가능한 로그. 각 계층은 이전 계층이 침해될 수 있음을 가정합니다.

시스템 관점에서의 핵심 통찰은 모니터링 모델이 모니터링 대상인 에이전트로부터 독립적이어야 한다는 것입니다. 만약 동일한 모델이 행동과 감사를 모두 수행한다면, 정렬되지 않은 (misaligned) 에이전트는 자신의 잘못된 행동을 합리화할 수 있습니다. DeepMind의 로드맵은 금융 통제 및 제로 트러스트 (zero-trust) 보안에서 직접 빌려온 원칙인 직무 분리 (separation of duties)에 의존합니다. 저는 팀들이 이 단계를 건너뛰는 것을 보아왔습니다. 그리고 그것은 항상 그들에게 독이 되어 돌아왔습니다. 더 넓은 AI 리스크 맥락을 위해서는, NIST AI Risk Management Framework가 이러한 사고방식의 상당 부분을 공식화하고 있습니다.

가장 과소평가된 AI 안전 기본 요소 (safety primitive)는 더 나은 모델이 아닙니다. 그것은 똑똑한 모델을 감시하는 것만이 유일한 임무인, 더 멍청하고 독립적인 모델입니다.

이 지점에서 MCP (Model Context Protocol)가 중요해집니다. 에이전트가 도구 및 데이터와 연결되는 방식을 표준화함에 따라, 제어 계층(control layer)은 프로토콜 경계(protocol boundary)에 위치하여 어떤 모델이 명령을 내렸는지와 관계없이 모든 도구 호출(tool call)을 가로채야 합니다. 프로토콜 계층에서의 제어는 확장 가능하지만, 개별 에이전트마다 제어 기능을 덧붙이는 방식은 확장할 수 없습니다.

전체 기능 목록: AI 기술 제어가 가능하게 하는 것

DeepMind의 내부 위협(insider-threat) 프레임워크를 구체적인 엔지니어링 기능으로 매핑하면, 성숙한 제어 구현은 다음과 같은 것들을 가능하게 합니다: