AI 기술 vs Human-in-the-Loop: Amazon이 대규모 환경에서 감독이 실패한다고 말하는 이유

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 20일

AI 기술은 이제 업계 전체가 불편한 사실 하나를 인정하도록 강요하고 있습니다. 즉, 모두가 AI 안전의 황금 표준(gold standard)이라고 부르는 것 — Human-in-the-loop (인간 개입) — 이 대규모 환경에서는 시스템의 신뢰성을 조용히 _저하시킨다_는 사실입니다.

2026년 6월 20일, Amazon Security의 수석 엔지니어이자 부사장(VP)인 Eric Brandwine는 The Register를 통해 Human-in-the-loop가 에이전트형(agentic) AI 기술 거버넌스의 '반드시 황금 표준인 것은 아니다'라고 말했습니다. 이는 Google Cloud, Microsoft, IBM이 이 개념을 공개적으로 재고하고 있는 흐름에 합류하는 것입니다. 이것이 지금 중요한 이유는 기업들이 LLM, LangGraph, CrewAI, 그리고 MCP를 기반으로 구축된 에이전트들을 거버넌스를 구축하는 속도보다 더 빠르게 실제 IT 환경에 배포하고 있기 때문입니다. 저는 팀들이 이렇게 하는 것을 지켜봐 왔습니다. 배포 속도와 거버넌스 성숙도 사이의 격차는 결코 작지 않습니다.

이 글을 마칠 때쯤 여러분은 왜 인간의 감독이 저하되는지, 무엇이 그것을 대체하는지, 그리고 조용히 부패하지 않는 에이전트형 시스템을 어떻게 설계해야 하는지를 정확히 이해하게 될 것입니다.

Eric Brandwine distinguished engineer and VP at Amazon Security discussing human-in-the-loop AI technology governance

Amazon Security의 수석 엔지니어이자 부사장(VP)인 Eric Brandwine는 인간이 모두가 가정하는 것처럼 신뢰성의 닻이 아니라고 주장합니다. 출처: The Register

개요: Amazon이 실제로 말한 내용

Brandwine의 핵심 논지는 잔혹할 정도로 구체적입니다. 인간은 '인간에 대해 다소 편향된(a little bit precious about humans) 태도를 보인다'는 것입니다. 우리는 우리가 일관되고, 규율 있으며, 신뢰할 수 있다고 가정합니다. 하지만 그렇지 않습니다. Brandwine가 The Register에 밝힌 바와 같이, '실제로 파고들어 보면 인간은 그다지 일관적이지 않습니다.'

그의 핵심 주장은 인간과 AI 기술이 근본적인 속성을 공유한다는 것입니다. 즉, 둘 다 **비결정론적(non-deterministic)**이라는 점입니다. 둘 다 동일한 입력에 대해 두 번의 동일한 출력을 생성하지 않습니다. 둘 다 실수를 합니다. 둘 다 환각 (hallucinate)을 일으킵니다. 유일한 차이점은 익숙함입니다. Brandwine는 '우리는 인간이 어떻게 실패하는지 알고 있습니다'라고 말했습니다. '우리는 그것에 익숙하죠. 따라서 Human-in-the-loop (HITL)가 반드시 황금 표준(gold standard)인 것은 아닙니다.'

그의 논거의 핵심은 그가 2017년 AWS re:Invent에서 처음 제시했던 개념인 **일탈의 정상화 (normalization of deviance)**입니다. 인간을 엄격한 승인 루프(approval loop) 안에 두고, 에이전트적 행동(agentic actions)에 대해 반복적으로 승인(rubber-stamp)하도록 요청하면, '처음에는 잘 해낼 것입니다. 그러다 괜찮은 수준으로 내려가고, 아주 빠르게 형편없는 수준으로 전락할 것입니다.' 규율은 부식됩니다. 인간은 안전을 더해주지 못하면서 지연 시간 비용(latency tax)만 추가하는 존재가 됩니다. 저는 진심으로 노력하던 한 팀에서 이 현상이 약 6주 만에 발생하는 것을 목격했습니다.

이것이 대부분의 사람들이 놓치는 부분입니다. 모든 이들이 Human-in-the-loop를 통제 수단으로 취급합니다. 하지만 Brandwine는 이것이 조용히 퇴보하는 '통제의 환상(illusion of control)'이라고 말합니다. 이는 마치 응급실 간호사들이 충분한 오경보(false positives)를 경험한 후 알람에 반응하지 않게 되는 것과 정확히 일치하며, 이는 National Institutes of Health에서 '알람 피로 (alarm fatigue)'로 연구된 기록된 현상입니다. 미국 식품의약국(FDA)과 Joint Commission 모두 이에 대해 공식적인 안전 경고를 발행한 바 있습니다.

Human-in-the-loop는 요란하게 실패하지 않습니다. 그것은 연기 감지기가 고장 나는 방식처럼—조용히, 점진적으로, 그리고 당신이 그것을 가장 필요로 하는 바로 그 순간에 실패합니다.

하지만 저는 여기서 기사가 다루는 범위를 넘어서고자 합니다. Brandwine는 하나의 증상을 지목하고 있습니다. 그 밑에 깔린 질병 — 즉, 인간의 감독(human oversight)과 순진한 에이전트 자동화(naive agent automation) 모두를 취약하게 만드는 근본적인 원인 — 은 제가 **AI 조정 격차 (The AI Coordination Gap)**라고 부르는 것입니다. 당신의 6개 에이전트 파이프라인(pipeline)이 실패하는 이유는 모델이 멍청하거나 인간이 게을러서가 아닙니다. 결정들 사이의 이음새(seams)를 책임지는 주체가 아무도 없기 때문에 실패하는 것입니다.

새롭게 정의된 프레임워크

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차(The AI Coordination Gap)는 에이전트(agents), 도구(tools), 그리고 인간과 같은 자율적 구성 요소들 사이에, 구성 요소 간의 인수인계(handoffs), 에스컬레이션 트리거(escalation triggers), 그리고 공유 상태(shared state)를 명시적으로 관리하는 시스템이 없을 때 발생하는 신뢰성의 구멍입니다. 이곳은 '인간 참여형(human-in-the-loop)' 방식이 존재해야 할 자리였지만, 실제로는 주의력이 조용히 증발해 버리는 곳입니다.

Amazon, Google, Microsoft, 그리고 IBM은 모두 각자의 방식으로 이 격차를 메우려 노력하고 있습니다. 단지 아직 이름을 붙이지 않았을 뿐입니다. 그 내역은 다음과 같습니다.

<10년
현대적 LLM을 다뤄온 기간 vs 인간과 함께해온 수천 년
[The Register, 2026](https://www.theregister.com/security/2026/06/20/why-amazon-hates-human-in-the-loop-ai-governance/)
...

이것은 무엇인가: 인간 참여형(Human-in-the-Loop) AI 기술 거버넌스(Governance)를 쉬운 언어로 설명하자면

수년 동안 벤더(vendors)들은 기업들에게 '어떻게 자동화된 시스템을 안전하게 만들 것인가?'라는 질문에 대해 한 가지 답만을 제시해 왔습니다. 그 답은 바로 **인간을 루프에 포함시키는 것(put a human in the loop)**이었습니다. 사람이 제안된 작업을 검토하고, 실행되기 전에 승인하는 방식입니다. Brandwine가 설명하듯, 이 구호는 '기업들이 IT 환경에 에이전트(agents)를 배치하기 시작하면서 최고조에 달했습니다.'

특히 에이전트형 AI(agentic AI) 기술에서, 인간 참여형(human-in-the-loop, HITL)은 AI 에이전트가 특정 작업 — S3 버킷 삭제, 고객 환불, 풀 리퀘스트(pull request) 병합 등 — 을 제안하면, 에이전트가 진행하기 전에 반드시 인간이 '승인(approve)'을 클릭해야 함을 의미합니다. 이론적으로는 완벽해 보입니다. 문제는 규모(volume)와 속도(velocity)입니다.

에이전트 군단(agent fleet)이 시간당 수백 또는 수천 개의 승인 요청을 생성할 때, 이를 검토하는 인간은 응급실(ER) 간호사가 하는 행동을 똑같이 수행합니다. 바로 습관화(habituate)되는 것입니다. 첫 번째 오경보에는 온전한 주의를 기울이지만, 천 번째 오경보는 반사적인 클릭으로 이어집니다. 이것이 바로 일탈의 정상화 (normalization of deviance) 입니다. 이는 의료 종사자, 소방관, 심지어 육군 조종사들 사이에서도 기록된 현상으로, '말 그대로 누군가의 생명이 달려 있음에도 불구하고 사람들이 규율을 유지하는 데 어려움을 겪는 상황'을 의미합니다. 이 용어 자체는 사회학자 다이앤 본(Diane Vaughan)의 챌린저호 참사 (Challenger disaster) 분석에서 유래되었으며, 이후 NASA의 컬럼비아호 사고 조사 위원회에 의해 더욱 강화되었습니다.

하루에 1,000개의 에이전트 작업을 승인하는 인간은 안전 제어 장치가 아닙니다. 그들은 시간이 지날수록 성능이 저하되며 미세 조정(fine-tuning)도 불가능한, 97% 정확도의 분류기(classifier)에 불과합니다. Brandwine의 핵심 논점은 우리가 성능이 저하되는 구성 요소를 불변하는 상수로 취급해 왔다는 것입니다.

Brandwine의 말을 빌린 Amazon의 입장은 다음과 같습니다: '우리는 Human-in-the-loop 방식을 크게 선호하지 않습니다. 이는 반드시 필요한 경우에만 신중하게 사용해야 하는 것입니다. 하지만 높은 속도(high velocity)로 수행할 수 있는 방식은 아닙니다. 당신이 원하는 결과를 얻을 수 없을 것입니다.'

그리고 Amazon만 그런 것이 아닙니다. 업계 전체가 같은 주에 동일한 방향으로 선회했습니다:

Google Cloud COO Francis deSouza는 2026년 4월 Cloud Next를 앞두고 다음과 같이 말했습니다: '우리는 인간 주도의 방어 전략(human-led defense strategy)에서 인간 참여형 방어 전략(human-in-the-loop defense strategy)을 거쳐, 인간이 감독하는 AI 주도 방어 전략(AI-led defense strategy)으로 이동했습니다... 기계의 속도로 일상적인 사이버 보안 업무의 상당 부분을 수행하고 인간이 감독하는 에이전트 함대(agentic fleet)로 말입니다.'
Microsoft CEO Satya Nadella는 이번 주 X(구 트위터) 게시물에서 매 단계마다 AI 출력을 확인하는 대신 '루프 학습 (loop learning)'을 주장했습니다. 이는 '워크플로(workflows), 도메인 지식(domain knowledge), 축적된 판단력을 사용 시마다 개선되는 AI 시스템으로 전환하는 것'을 의미합니다.
IBM 경영진은 이번 주 AI 개발 및 거버넌스의 모든 단계에서 인간의 개입(human in the loop)이 아닌 인간의 책임(human accountability)을 촉구하며, NIST AI 위험 관리 프레임워크 (NIST AI Risk Management Framework)의 원칙을 강조했습니다.

언어적 변화에 주목하십시오: 인간 참여형(human-in-the-loop) → 인간 감독(human oversight) → 인간 책임(human accountability). 이러한 진보는 산업계가 조정 격차(Coordination Gap)에서 벗어나기 위해 노력하고 있음을 보여줍니다. 근본적인 개념이 생소하다면, AI 에이전트 (AI agents)에 관한 우리의 입문서를 통해 기초를 다질 수 있습니다.

Diagram showing the shift from human-led to human-in-the-loop to AI-led defense overseen by humans

산업 전반의 전환: 인간 주도에서 인간 참여형으로, 그리고 감독이 동반된 AI 주도로 — Google의 deSouza는 2026년 4월에 정확히 이러한 진행 과정을 언급했습니다.

작동 방식: 감독 붕괴의 메커니즘 (The Mechanism of Oversight Decay)

실패 메커니즘을 구체화해 보겠습니다. 시니어 엔지니어들에게 필요한 것은 슬로건이 아니라 시스템적 관점이기 때문입니다.

인간과 LLM 에이전트 모두 비결정론적 (non-deterministic)입니다. 동일한 입력을 두 번 주더라도 서로 다른 출력이 나올 수 있습니다. 따라서 에이전트에 인간 승인자를 체인(chain)으로 연결한다고 해서 결정론을 만든 것이 아닙니다. 오히려 직렬로 연결된 두 번째 확률적 (stochastic) 구성 요소를 만든 것에 불과합니다. 직렬로 연결된 구성 요소들은 실패율이 복리로 증가합니다. 이것은 가설이 아니라 산술적인 사실입니다.

편차의 정상화 (Normalization of Deviance)가 어떻게 Human-in-the-Loop 파이프라인을 망가뜨리는가

  1

    **에이전트가 작업 제안 (LangGraph / CrewAI 노드)**

자율 에이전트가 제안된 작업(예: IAM 키 취소)을 생성합니다. 출력은 비결정론적이며, 제안의 약 3%는 잘못되었습니다.

↓

  2
...

요청이 큐(queue)에 쌓입니다. 지연 시간(latency)이 추가됩니다: 수 초에서 수 시간까지. 처리 속도가 빨라지면 큐의 깊이는 인간이 처리할 수 있는 속도보다 더 빠르게 증가합니다.

↓

  3
...

검토자가 각 요청을 주의 깊게 조사합니다. 포착률(catch rate)이 높습니다. 이것이 모든 데모와 모든 컴플라이언스 감사(compliance audit)에서 보여지는 상태입니다.

↓

  4
...

수천 번의 무해한 승인을 거친 후, 검토자의 주의력은 감퇴합니다. '잘함 → 보통 → 못함' (Brandwine). 통제력이 소리 없이 약해집니다.

↓

  5
...

규율이 낮아진 단계에서 진정으로 위험한 작업이 도착하고, 이는 반사적으로 승인됩니다. 재앙입니다. 감사 로그(audit log)에는 '인간이 승인함'이라고 표시되어, 감독이 이미 실패했다는 사실을 은폐합니다.

이 시퀀스는 왜 HITL이 실패하는지를 보여줍니다. 무너지는 것은 모델이 아니라 인간의 주의력 곡선이며, 감사 추적(audit trail)은 그 감퇴를 숨깁니다.

이것이 조정 격차 (Coordination Gap)의 핵심입니다. 시스템에는 에이전트 → 큐 → 인간 → 실행이라는 인계(handoff) 과정이 있지만, 시간이 지남에 따라 인간의 주의력 _품질_을 책임지는 주체는 아무도 없습니다. 에스컬레이션 로직(escalation logic)도, 신뢰도 기반 라우팅(confidence-based routing)도, 피로 모델(fatigue model)도 없습니다. 이 이음새는 관리되지 않으며, 바로 그 지점에서 문제가 발생합니다.

명명된 프레임워크

AI 조정 격차 (The AI Coordination Gap) — 4개 계층

이 격차에는 신뢰성이 누수되는 네 가지 계층이 있습니다: 핸드오프 계층 (Handoff Layer, 누가 무엇을 누구에게 전달하는가), 상태 계층 (State Layer, 어떤 컨텍스트가 공유되는가), 에스컬레이션 계층 (Escalation Layer, 언제 실제로 인간이 개입하는가), 그리고 책임 계층 (Accountability Layer, 문제가 발생했을 때 누가 책임을 지는가)입니다. 대부분의 팀은 에이전트 (Agents)를 구축하면서 이 네 가지를 모두 무시합니다.

계층 1 — 핸드오프 계층 (The Handoff Layer)

에이전트와 도구 (Tool), 또는 에이전트와 인간 사이의 모든 전환은 핸드오프 (Handoff)입니다. LangGraph 또는 CrewAI를 사용하는 프로덕션 환경에서, 핸드오프는 컨텍스트 (Context)가 유실되는 지점입니다. 해결책은 더 많은 인간을 투입하는 것이 아니라, 명시적인 계약 (Contracts)을 가진 타입 지정 및 검증된 핸드오프를 구축하는 것입니다. 저는 이러한 요소 없이는 멀티 에이전트 시스템 (Multi-agent system)을 출시하지 않을 것입니다.

계층 2 — 상태 계층 (The State Layer)

에이전트에게는 공유된 상태 (Shared state)가 필요합니다. 상태가 없다면, 에이전트 B는 에이전트 A가 완료한 작업을 다시 수행하거나, 오래된 컨텍스트 (Stale context)를 바탕으로 행동하게 됩니다. 이것이 바로 MCP (Model Context Protocol)가 중요한 이유입니다. MCP는 모델과 도구 사이의 컨텍스트 흐름을 표준화하여, 파이프라인 (Pipeline) 중간에 컨텍스트가 조용히 증발하지 않도록 합니다.

AI 기술 vs Human-in-the-Loop: Amazon이 대규모 환경에서 감독이 실패한다고 말하는 이유

요약

핵심 포인트

개요: Amazon이 실제로 말한 내용

개요: Amazon이 실제로 말한 내용

AI 조정 격차 (The AI Coordination Gap)

이것은 무엇인가: 인간 참여형(Human-in-the-Loop) AI 기술 거버넌스(Governance)를 쉬운 언어로 설명하자면

작동 방식: 감독 붕괴의 메커니즘 (The Mechanism of Oversight Decay)

AI 조정 격차 (The AI Coordination Gap) — 4개 계층

계층 1 — 핸드오프 계층 (The Handoff Layer)

계층 2 — 상태 계층 (The State Layer)

계층 3 — 에스컬레이션 계층 (The Escalation Layer)

댓글