Amazon이 'Human-in-the-Loop' AI 거버넌스를 싫어하는 이유

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 20일

Amazon이 'Human-in-the-loop (인간 참여형)' AI 거버넌스를 싫어하는 이유는 AI 안전성 업계 전체가 구축된 검증되지 않은 하나의 가정, 즉 인간이 AI 시스템을 더 안전하게 만든다는 가정 때문입니다. Amazon의 보안 부사장(VP of Security)은 최근 공개적으로 이 가정을 완전히 깨뜨렸으며, 거버넌스 산업은 이에 대한 답을 내놓지 못하고 있습니다.

2026년 6월 20일, The Register는 Amazon Security의 수석 엔지니어(distinguished engineer)이자 부사장(VP)인 Eric Brandwine가 'human-in-the-loop'가 AI 에이전트(AI agents)를 관리하는 황금 표준(gold standard)이 아니라고 주장한 내용을 보도했습니다. 이는 현재 매우 중요한 문제인데, LangGraph, AutoGen 또는 CrewAI를 사용하여 AI 에이전트를 배포하는 모든 기업이 모든 결정 단계에 인간을 결합하라는 지시를 받고 있기 때문입니다. 단 하나도 빠짐없이 말이죠.

이 글을 다 읽고 나면, 여러분은 인간의 검토가 언제 도움이 되는지, 언제 적극적으로 해를 끼치는지, 그리고 기계의 속도와 EU AI Act(EU AI 법안)를 모두 견뎌낼 수 있는 거버넌스를 어떻게 구축해야 하는지 정확히 알게 될 것입니다.

Amazon Security VP Eric Brandwine portrait illustrating the human-in-the-loop AI governance debate

Amazon Security의 수석 엔지니어이자 부사장인 Eric Brandwine는 'human-in-the-loop'가 업계가 가정하는 거버넌스의 황금 표준이 아니라고 주장합니다. 이는 '인간 병목 현상의 오류 (The Human Bottleneck Fallacy)'의 핵심 주장입니다. 출처: The Register

조어된 프레임워크 (Coined Framework)

인간 병목 현상의 오류 (The Human Bottleneck Fallacy) — AI 의사결정 루프에 사람을 개입시키면 항상 결과가 개선될 것이라는 위험한 가정. 대규모 환경에서는 피로 편향 (fatigue bias), 일관성 결여, 그리고 어떤 감사 추적 (audit trail)으로도 해결할 수 없는 잘못된 확신을 체계적으로 유발함

이는 인간의 승인을 안정적인 지상 실재 (ground truth)로 취급하는 체계적인 오류를 지칭합니다. 기계의 속도와 규모에서는 인간 검토자가 신뢰성을 더하는 것이 아니라, 조직이 안전하다고 착각하게 만드는, 더 느리고 일관성이 없으며 감사하기 어려운 실패 모드 (failure mode)를 추가할 뿐입니다.

Amazon이 실제로 발표한 내용: Brandwine 성명 해설

Eric Brandwine의 정확한 논거 — 그가 말한 것과 말하지 않은 것

The Register와의 전화 인터뷰에서 밝힌 Brandwine의 핵심 주장은 직설적입니다. 인간은 '인간에 대해 다소 소중하게 생각하는 경향이 있다'는 것입니다. 우리는 우리가 자신의 일을 잘하고 있다고 믿습니다. 일관적이고, 신뢰할 수 있다고 믿죠. 하지만 '실제로 파고들어 보면, 인간은 그리 일관적이지 않습니다'라고 그는 말했습니다. 그의 가장 날카로운 프레임워크는 다음과 같습니다: '우리는 인간이 어떻게 실패하는지 알고 있습니다. 우리는 그것에 익숙합니다. 따라서 Human-in-the-loop (HITL)가 반드시 황금 표준 (gold standard)인 것은 아닙니다.'

결정적으로, Brandwine은 인간을 완전히 제거해야 한다고 말하지
않았습니다. 그는 Human-in-the-loop가 '반드시 필요한 곳에서만 신중하게 사용해야 하는 것'이라고 말했습니다. '하지만 높은 속도 (high velocity)로 수행할 수 있는 것은 아닙니다. 원하는 결과를 얻지 못할 것입니다.' 이 차이점은 누군가가 이 기사를 요약할 때마다 간과되곤 합니다.

'만약 이 긴밀한 루프 안에 인간을 배치하고, 에이전트 도구 (agentic tools)에 대한 승인 결정을 반복적으로 내리도록 요청한다면, 처음에는 잘 해낼 것입니다. 그다음에는 적당히 해낼 것이고, 아주 빠르게는 형편없이 해내게 될 것입니다.' — Eric Brandwine, Amazon Security 부사장

The Register 보도: 날짜, 맥락 및 공식 출처

'Amazon이 'Human-in-the-Loop' AI 거버넌스를 싫어하는 이유: Eric Brandwine 부사장이 사람들이 실제로는 그리 뛰어나지 않다고 설명하다'라는 제목의 이 기사는 기자 Jessica Lyons에 의해 2026년 6월 20일 토요일 15:25 UTC에 게시되었습니다. Brandwine은 2017년 AWS re:Invent에서 처음 제시했던 개념인 **일탈의 정상화 (normalization of deviance)**에 자신의 논거를 두고 있습니다. 이는 이 문제를 공개적으로 언급하기 전까지 9년 동안 침묵해 왔음을 의미합니다.

Amazon 보안 부사장으로부터 나온 이 발언이 중요한 이유

이것은 자율성 (autonomy)을 하나의 기능으로 홍보하는 성장 담당 임원의 발언이 아닙니다. 이는 보안 부사장이 리스크 (risk)에 관한 논거를 제시하는 것이며, 이러한 프레임워크는 모든 것을 변화시킵니다. Amazon Web Services는 결정마다 인간의 검토를 거치는 것이 재앙적인 지연 시간 (latency) 없이 산술적으로 불가능한 규모로 운영되고 있으며, Brandwine은 업계의 기본 제어 메커니즘이 일종의 보여주기식 행위 (theater)라고 공개적으로 말하고 있습니다. 해당 인프라를 유지하는 책임을 맡은 사람으로부터 나온 말이라는 점에서, 이는 가벼운 관찰이 아닙니다. 보안이 배포에 어떻게 영향을 미치는지에 대한 더 깊은 맥락은 당사의 AI 보안 기초 (AI security fundamentals) 가이드를 참조하십시오.

Brandwine이 언급한 '일탈의 정상화 (normalization of deviance)' 사례: 응급실 간호사들은 첫날에는 모든 알람에 즉각 반응합니다. 하지만 충분한 수의 허위 알람 (false alarms)을 겪고 나면, 규율이 느슨해지고 대응이 중단되며, 결국 실제 알람을 놓치게 됩니다. 이는 알람 피로 (alarm-fatigue) 연구 내 의료 종사자, 소방관, 그리고 육군 조종사들 사이에서 문서화된 바 있습니다. 동일한 피로 곡선 (fatigue curve)이 하루 종일 에이전트의 행동을 승인하는 모든 인간에게 적용됩니다.

15:25 UTC
Brandwine 인터뷰 게시 시간, 2026년 6월 20일
[The Register, 2026](https://www.theregister.com/security/2026/06/20/why-amazon-hates-human-in-the-loop-ai-governance/5258639)
...

Human-in-the-Loop AI 거버넌스란 무엇인가 — 전체 기술적 정의

세 가지 모델: human-in-the-loop, human-on-the-loop, 그리고 완전 자율 (fully autonomous)

**Human-in-the-loop (HITL)**는 AI 출력이 후속 동작(downstream action)을 트리거하기 _전_에 반드시 인간이 이를 승인, 거부 또는 수정해야 함을 의미합니다. 2019년경부터 규제 산업(regulated industries)의 표준으로 자리 잡았습니다. **Human-on-the-loop (HOTL)**는 인간이 결정 사항을 집합적으로 모니터링하고 개입할 수는 있지만, 개별 출력마다 승인하지는 않는 것을 의미합니다. 이는 Brandwine이 암묵적으로 옹호하는 모델입니다. **완전 자율 (Fully autonomous)**은 런타임 경로(runtime path)에서 인간을 완전히 제거하고, 대신 아키텍처(architecture)를 통해 행동을 제약하는 방식입니다. 대부분의 사람들은 두 번째와 세 번째를 혼동하지만, 이 둘은 서로 다릅니다.

Brandwine의 핵심적인 기술적 관찰은 다음과 같습니다: 인간과 AI 에이전트 모두 **비결정론적 (non-deterministic)**이라는 점입니다. 둘 다 동일한 입력에 대해 두 번 실행했을 때 동일한 출력을 생성한다는 보장이 없습니다. 둘 다 실수를 하며, 둘 다 내용을 지어내기도 합니다. 차이점은 신뢰성(reliability)이 아니라 익숙함(familiarity)에 있습니다.

인간과 LLM은 모두 비결정론적입니다. 우리가 인간을 더 신뢰하는 유일한 이유는 인간이 덜 실수하기 때문이 아니라, 인간이 어떻게 실패하는지에 대해 익숙해질 수 있는 수천 년의 시간을 가졌기 때문입니다.

Amazon Augmented AI (A2I)가 작동했던 방식 — 그리고 대규모 인간 검토에 대해 드러낸 것

Amazon Augmented AI (A2I)는 Amazon 자체의 관리형 HITL 서비스였습니다. 팀들은 신뢰도가 낮은 ML 예측을 인간 검토자에게 전달할 수 있었습니다. 신뢰도가 낮은 사례'만' 전달하도록 설계된 그 방식 자체가, 현재 Brandwine이 공개적으로 목소리를 높이고 있는 내부적 회의론을 암시합니다. 현명한 전략은 결코 '모든 것을 검토하는 것'이 아니었습니다. 그것은 '모델이 확신하지 못하는 것만 검토하는 것'이었습니다. 업계가 HITL은 타협 불가능하다는 내용의 블로그 포스트를 작성하고 있을 때, Amazon은 수년 동안 조용히 이 논리에 따라 행동해 왔습니다.

자율성 스펙트럼: 2026년 기업용 AI 시스템이 실제로 위치한 지점

현대의 에이전트 프레임워크(agentic frameworks) — LangGraph, AutoGen, 그리고 CrewAI —는 모두 설정 가능한 중단 지점(interrupt points)을 제공합니다. 하지만 현재 대부분의 프로덕션 배포(production deployments)에서는 이러한 중단 지점을 기본 검토(default-review)가 아닌 예외 상황에만(exception-only) 발생하도록 설정합니다. 업계는 명시적으로 밝히지 않았을 뿐, 조용히 Brandwine의 입장 쪽으로 이동해 왔습니다. 중단 지점이 실제로는 어떻게 연결되는지에 대해서는 당사의 멀티 에이전트 시스템(multi-agent systems) 분석 내용을 참조하십시오.

Diagram comparing human-in-the-loop, human-on-the-loop, and fully autonomous AI governance models

자율성 스펙트럼(autonomy spectrum): HITL(Human-in-the-Loop)은 모든 동작을 승인하고, HOTL(Human-on-the-Loop)은 총체적으로 모니터링하며, 구조적 거버넌스(structural governance)는 아키텍처 계층에서 동작을 제약합니다. Brandwine은 일상적인 의사결정을 오른쪽(더 높은 자율성 방향)으로 밀어붙일 것을 옹호합니다.

인간 병목 현상의 오류: 왜 인간의 감독이 AI를 더 악화시킬 수 있는가

인지적 피로와 '승인 도장 찍기(approval rubber-stamp)' 문제

이것이 Brandwine 주장의 핵심이자, 이 글에서 명명한 프레임워크의 핵심입니다. 사람에게 에이전트의 동작을 '반복해서' 승인하도록 요청하면, 그들의 성능은 예측 가능한 곡선을 그리며 저하됩니다: 좋음, 그다음은 보통, 그다음은 나쁨. 승인은 반사 작용이 됩니다. 실제적인 판단 없이 감사 추적(audit trail)만을 생성하는 고무 도장(rubber stamp)이 되는 것입니다. 그리고 가장 무서운 점은 로그상으로는 두 경우(실제 판단을 한 경우와 그렇지 않은 경우)가 동일해 보인다는 것입니다.

명명된 프레임워크

실전에서의 인간 병목 현상의 오류

인간이 각 단계를 승인하는 6단계 에이전트 파이프라인(pipeline)은 처리량이 늘어난다고 해서 더 안전해지지 않습니다. 오히려 시간이 지날수록 정확도가 떨어지는 피로한 검토자만을 양산할 뿐입니다. 감사 로그(audit log)에는 '인간이 승인함'이라고 기록되지만, 인간은 이미 몇 시간 전에 진정한 검토를 중단했습니다. 이는 컴플라이언스(compliance) 팀이 로그 기록만으로는 결코 감지할 수 없는 잘못된 확신(false confidence)입니다.

거버넌스 리스크로서의 불일치: 검토자가 모델보다 더 많이 의견이 불일치할 때

Brandwine이 지적한 가장 핵심적인 지점은 다음과 같습니다. 비결정론적 (non-deterministic)인 인간이 비결정론적 (non-deterministic)인 모델을 검토한다고 해서 결정론 (determinism)이 생성되는 것은 아닙니다. 이는 오히려 두 가지 변동성 (variance) 소스를 쌓아 올리는 꼴이 됩니다. 모호한 사례의 경우, 인간 검토자 간의 일치도 (inter-rater agreement)는 모델 자체의 자기 일관성 (self-consistency)보다 낮은 경우가 빈번합니다. 즉, 더 조용한 통제 장치를 감시하기 위해 더 노이즈가 심한 통제 장치를 투입하는 격입니다. 저는 라벨링 프로젝트에서 이런 일이 발생하는 것을 목격했습니다. 모델이 변하는 정도보다 인간들이 서로 논쟁하는 정도가 더 컸습니다.

잘못된 확신의 함정: HITL이 어떻게 감사 연극 (audit theatre)을 만드는가

가장 위험한 결과는 인간이 무언가를 놓치는 것이 아닙니다. 로그에 남겨진 그들의 서명이 마치 책임 소재를 명확히 하는 것처럼 느껴지는 것입니다. Anthropic의 Constitutional AI와 OpenAI의 RLHF 모두 주석가 집단(annotator cohorts) 간에 명백히 불일치하는 인간 선호 데이터에 의존합니다. 이는 피로도 문제를 논하기 전부터, 인간의 판단이 안정적인 정답 (ground truth)이라는 전제 자체를 약화시킵니다.

대부분의 사람들이 오해하는 부분은 HITL을 이진법적인 안전 스위치로 취급한다는 점입니다. 하지만 그렇지 않습니다. 하루에 약 10,000건 이상의 결정이 내려지는 상황에서, 피로한 인간 검토자는 자신이 확인 중인 모델보다 더 많은 변동성 (variance)을 유발하며, 결과적으로 당신의 안전 제어 장치를 가장 큰 미감시 실패 모드 (unmonitored failure mode)로 변질시킵니다.

인간 병목 현상의 오류가 대량 승인 루프를 저하시키는 방식

  1

    **에이전트가 동작 생성 (LangGraph 노드)**

에이전트가 후속 동작을 제안합니다. 시스템은 인간의 승인을 기다리며 interrupt_before 노드에서 일시 중지됩니다.

↓

  2
...

인간이 문맥을 주의 깊게 읽고 예외 사례 (edge cases)를 포착합니다. 진정한 판단이 적용됩니다. 처리량 (throughput)은 낮지만, 정확도는 높습니다.

↓

  3
...

수백 건의 무해한 승인이 반복된 후, 규율이 무너집니다. 검토자는 패턴 매칭을 통해 클릭 한 번으로 승인해 버립니다. 정확도가 급격히 떨어집니다.

↓

  4
...

감사 로그(Audit log)에는 모든 동작에 대해 '인간이 승인함'이라고 표시되지만, 인간은 더 이상 검토를 하고 있지 않습니다. 이제 잘못된 확신이 기록에 내재화됩니다.

↓

  5
...

진정으로 해로운 동작이 통과되지만, 로그상으로는 무해한 동작들과 구별할 수 없습니다. '인간 브레이크 (human brake)'가 소리 없이 실패한 것입니다.

이것은 바로 Brandwine이 에이전트 거버넌스 (agentic governance)에 적용한 응급실 알람 비유와 정확히 일치합니다. 실패가 파멸적인 결과로 이어지기 전까지는 보이지 않기 때문에 그 순서가 중요한 것입니다.