AI 에이전트가 동료가 되기 전에 필요한 제어

Google DeepMind는 2026년 6월 18일에 AI Control Roadmap을 공개했다. 이 타이밍은 중요하다. 에이전트의 물결은 데모에서 실무로 옮겨갔다. 코드 변경, 연구 계획, 사이버 방어 정리, 문서 작성, 제품 운용까지 대상이 되어 있다. 이전의 질문은 에이전트가 어디까지 유능해질 것인가였다. 지금의 더 날카로운 질문은, 목표, 추론, 실패의 형태가 아직 불완전한 시스템에 어느 범위의 액세스(Access)를 허용해야 하는가이다.

이 로드맵은 강력한 내부 에이전트를 내부자 위협(Insider Threat)에 가까운 신중함으로 다룬다. 표현은 강하게 들리지만, 의미는 실무적이다. 유용한 에이전트에는 도구, 데이터, 인증 정보, 행동 권한이 필요하게 된다. 시스템이 파일을 편집하고, API를 호출하며, 실험을 실행하고, 의사 결정에 영향을 미칠 수 있게 되면, 챗봇 중심의 안전 프레임워크(Safety Framework)만으로는 부족하다. Google DeepMind는 행동을 평가하고, 에이전트의 궤적을 모니터링하며, 신뢰할 수 있는 시스템을 감독자로서 사용하고, 리스크가 높아질수록 지연 리뷰(Delayed Review)에서 즉시 방지(Immediate Prevention)로 전환하는 다층적인 제어를 제안하고 있다.

이는 AI 안전성(AI Safety)을 이야기하는 방식에서의 중요한 변화다. 오랫동안 안전성 논의는 모델의 정렬(Alignment), 벤치마크(Benchmark), 거부 행동, 어시스턴트 내부 방침에 집중되어 왔다. 새로운 로드맵은 모델을 둘러싼 운용 환경으로 시선을 옮긴다. 권한, 로그, 샌드박스(Sandbox), 모니터링, 에스컬레이션 경로(Escalation Path), 복구 절차가 모델 품질만큼이나 중요해 보이기 시작한다.

텍스트 어시스턴트는 주로 제안을 생성한다. 에이전트는 결과를 생성한다. 파일을 삭제하고, 작업 흐름을 예약하며, 설정을 바꾸고, 코드 변경을 승인하며, 기밀 자료를 두어서는 안 될 곳으로 옮길 가능성이 있다. 모델에 적대 의도가 없더라도 손실은 커질 수 있다. 에이전트는 여러 단계에 걸쳐 행동을 지속하도록 설계되어 있기 때문이다.

Google DeepMind는 내부적인 노력을 통해 이미 100만 건의 코딩 에이전트 작업을 분석했다고 밝혔다. 중요한 교훈은 냉정하다. 많은 탐지 사례는 적대적인 행동보다는 지시 사항의 오독이나 과도한 열의에서 비롯되는 것으로 보인다. 이 점은 중요하다. 에이전트 리스크의 첫 번째 물결은 흔히 발생하는 업무상의 사고처럼 보이는 경우가 많기 때문이다. 시스템은 모호한 지시를 충족하려다 선을 넘는다. 잘못된 목표를 최적화한다. 임시 파일을 버려도 되는 재료라고 판단한다. 열람 권한을 변경 권한으로 받아들인다.

리스크의 일부는 언어 모델(Language Model)로 증폭된 일반적인 자동화에 있다. 에이전트는 추론하고, 계획하며, 즉흥적으로 대응할 수 있기 때문에 그 실패는 오래된 스크립트보다 더 멀리 나아갈 수 있다. 취약한 스크립트는 대개 좁은 형태로 실패한다. 유연한 에이전트는 누구도 예상하지 못한 경로를 찾아내며, 그 경로가 유용해 보이면서도 손해를 끼칠 수도 있다.

로드맵에서 가장 흥미로운 점은 감독이 능력에 맞춰 확장되어야 한다는 생각이다. 영향이 적은 작업이라면 사후 확인을 허용할 수 있다. 영향이 큰 작업에는 즉시 확인, 좁은 권한, 실행 전 중단할 수 있는 능력이 필요하다. 모델은 더 이상 제품 전체가 아니다. 주변의 제어 계층이 제품 경험의 일부가 된다.

여기에는 새로운 설계 과제가 있다. 모니터링이 너무 느슨하면 에이전트는 경로를 벗어난다. 모니터링이 너무 엄격하면 에이전트는 느려지고 사용하기 불편해진다. 모니터링 주체가 또 다른 AI 시스템인 경우, 업계는 그 감독자가 어떻게 시험되고, 무엇을 관찰하며, 인간이 그 판단을 어떻게 감사(Audit)하는지를 물어야 한다. 신뢰는 지시, 행동, 관찰, 개입, 기록이라는 전체 순환에 의존하기 시작한다.

에이전트를 도입하는 기업에서는 조달과 평가 방식도 바뀌어야 한다. 태스크를 완료하는 데모는 유용한 증거지만, 그것만으로는 부족하다. 팀은 에이전트가 무엇에 접근했는지, 무엇을 하려고 했는지, 무엇을 거부했는지, 위험한 단계에서 누가 승인했는지, 잘못된 행동 후에 시스템이 어떻게 회복되는지도 알아야 한다.

동일한 제어의 감각은 프런티어 연구소 밖에서도 유용하다. 연구자, 학생, 분석가, 제품 팀은 이미 자신의 업무 주변에 작은 에이전트적 작업 흐름을 만들고 있다. ChatGPT로 논증을 점검하고, Gemini로 자료를 비교하며, Miss Formula로 수식 스크린샷을 변환하고, Editable Figure로 AI 생성 논문 도표를 정리함으로써 도표를 편집 가능한 벡터 도표로 유지할 수 있다.

이 흐름이 강력한 이유는 각 도구의 역할이 한정되어 있기 때문이다. ChatGPT는 구성과 표현을 다듬는다. Gemini는 자료 비교의 폭을 넓힌다. Miss Formula는 수학 표기 복원의 마찰을 줄인다. Editable Figure는 논문 도표에 세심한 인간의 수정이 필요할 때, 시각적 증거를 편집 가능한 상태로 유지한다. 사용자는 주장에 책임을 지고, 근거를 확인하며, 최종 결과물에 무엇을 포함할지를 결정한다.

이것이 AI 제어 (AI control)의 실무적인 형태다. 거대한 보안 부서가 없어도 시작할 수 있다. 출발점은 명확한 경계다. 각 도구에는 필요한 접근 권한만 부여한다. 원본 자료를 남긴다. 초안과 검증을 분리한다. 수정 사항을 가시화한다. 판단이 중요한 곳에는 강력한 모델을 사용하고, 정밀도가 중요한 곳에는 좁은 범위의 도구를 사용한다. 목표는 지원을 통해 속도를 높이면서도 책임이 희석되지 않는 작업 흐름 (workflow)을 만드는 것이다.

AI 에이전트 경쟁은 보통 능력으로 논의된다. 어떤 시스템이 코드를 더 잘 작성하는가. 어떤 시스템이 브라우저 조작을 더 안정적으로 수행하는가. 어떤 시스템이 더 긴 태스크 (task)를 완료하는가. DeepMind의 로드맵은 다른 평가 축을 보여준다. 최상의 에이전트 플랫폼은 얼마나 안전하게 권한을 얻을 수 있는가로 평가받게 될 것이다.

여기서 AI는 인프라 (infrastructure)와 닮아간다. 컨디션이 좋은 날에만 인상적인 데이터베이스를 원하는 사람은 없다. 감사 로그 (audit log)가 없는 클라우드 서비스를 원하는 사람도 없다. 에이전트가 연구, 보안, 엔지니어링, 금융, 운영 분야로 진입함에 따라, 사용자들은 동일한 성숙도를 요구하게 된다. 취소 가능한 행동, 제한된 인증 정보 (credentials), 가능한 범위 내에서 가시적인 추론 (reasoning), 증거 이력, 그리고 인간에게로의 명확한 인수인계를 요구하게 될 것이다.

미래의 에이전트는 출입증, 관리자, 태스크 로그, 신중하게 정의된 접근 범위를 가진 유능한 동료처럼 느껴질지도 모른다. 자율 지능 (autonomous intelligence)이라는 말보다 수수하게 들리지만, 조직이 실제로 공존할 수 있는 모습은 이 쪽에 더 가깝다.

Google DeepMind는 AI 제어를 공학 분야로 다룸으로써 유용한 논점을 제시했다. 정렬 (alignment)은 계속해서 중요하겠지만, 실제 배포는 시스템이 무엇에 접근할 수 있는지, 그리고 인간이나 신뢰할 수 있는 감시자가 이상 징후에 얼마나 빠르게 반응할 수 있는지에 따라서도 좌우된다. 핵심 질문은 '이 모델이 무엇을 할 수 있는가'에서 '관찰 가능한 조건 하에서 이 시스템에 무엇을 허용해야 하는가'로 옮겨가고 있다.

일상의 지식 노동자들에게도 이 교훈은 즉시 적용 가능하다. 도구를 유용하게 유지하면서도 경계 내에 머물게 하는 작업 흐름을 만드는 것이다. AI에게 초안 작성, 비교, 수식 복원, 도표 편집을 돕게 하면서도, 주장과 의사 결정에 대한 인간의 책임은 남겨둔다. 에이전트는 더욱 유능해질 것이다. 가장 큰 혜택을 보는 것은 신뢰를 측정 가능한 단계에서 부여하는 방법을 배우는 팀이다.

AI 에이전트가 동료가 되기 전에 필요한 제어

요약

핵심 포인트

댓글