원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽을 수 있습니다.

최종 업데이트: 2026년 6월 21일

대부분의 AI 워크플로우 (AI workflows)는 완전히 잘못된 문제를 해결하고 있습니다. 2026년에 신뢰할 수 있는 AI 기술을 출시하는 가장 어려운 부분은 모델 품질이 아니라 조정 (coordination)이며, 한 교외 교육구가 이를 방금 증명했습니다. 이 교훈은 11세 아이의 숙제부터 핀테크 결제 파이프라인 (payments pipeline)에 이르기까지 확장 가능하지만, 거의 아무도 이를 정확하게 명명하지 못하고 있습니다.

2026년 6월 21일, Business Insider는 Amanda Hyslop의 에세이를 게시했습니다. 이 에세이는 그녀의 십 대 아들이 수학 숙제를 사진으로 찍어 AI 엔진에 입력한 뒤, 단 하나의 프롬프트(prompt)인 _'Solve(풀어줘)'_를 입력하는 과정을 설명합니다. 그녀의 대응 — Reed Union School District가 계층화된 AI 정책을 구축하도록 도운 것 — 은 의도치 않게 제가 올해 본 것 중 가장 깔끔한 조정 프레임워크 (coordination framework)를 만들어냈습니다. 이 기사는 해당 정책을 엔지니어를 위한 AI 기술 시스템 언어로 번역합니다.

글을 마칠 때쯤이면, 여러분은 **AI 조정 격차 (AI Coordination Gap)**가 무엇인지, 왜 여러분의 97% 신뢰도를 가진 파이프라인이 실패하는지, 그리고 어떻게 RUSD가 했던 방식대로 자율성 수준 (autonomy levels)을 계측할 수 있는지 이해하게 될 것입니다.

Teenage student using an AI engine to solve math homework problems on a phone camera

Amanda Hyslop의 아들은 AI를 단 하나의 프롬프트인 'Solve' 도구로 사용합니다. 이는 Reed Union School District의 계층화된 정책이 바로잡기 위해 설계된 정확한 실패 모드 (failure mode)입니다. 출처: Business Insider

발표된 내용 — 정확한 사실

원문 Business Insider 에세이에서 직접 가져온 실제 발생한 상황입니다 — 사견은 배제했습니다:

누가 (Who): 샌프란시스코 북부 교외 지역의 학부모인 Amanda Hyslop가 교사, 행정가 및 학부모 자원봉사자들과 함께 Reed Union School District (RUSD) AI 태스크포스(task force)에 참여했습니다.
언제 (When): 교육구는 지난 가을 학부모들에게 공고를 냈으며, Hyslop는 지난해 11월(2025년)에 합류했습니다. 이 에세이는 2026년 6월 21일에 게시되었습니다.
어디서 (Where): 에세이에 따르면, OpenAI, Anthropic, Google과 같은 선도적인 기술 기업들과 '연결된' 지역사회입니다.
무엇을 (What): 태스크포스는 세 차례의 회의를 통해 AI 통합을 위한 비전 성명서, 안전 및 윤리 검토, 그리고 AI 리터러시(AI literacy) 및 학생 사용에 관한 정책을 만들어냈습니다.
메커니즘 (The mechanism): **신호등 모델 (traffic-light model)**입니다. 초등학생(K-5)의 경우 — 빨간색은 AI 사용 금지, 노란색은 튜터/지원 도구로서의 AI, 초록색은 파트너로서의 AI를 의미합니다. 중학생의 경우, 색상 띠가 포함된 0~4단계 척도를 사용하며, 0은 AI 개입이 없음을, 4는 AI가 결과물을 생성하고 학생은 이를 비판적으로 검토하고 사실 확인(fact-check)을 해야 함을 나타냅니다.

이 프레임워크는 과제 헤더, 교실 포스터, 그리고 가정 통신문에 배치됩니다. 마지막 세부 사항은 보기보다 훨씬 중요합니다. 즉, 자율성 수준(autonomy level)이 아무도 읽지 않는 문서 속에 파묻혀 있는 것이 아니라, 작업이 이루어지는 시점에 명시된다는 점입니다. 이 점을 유념하십시오. 이것이 이 기사의 핵심입니다.

명명된 프레임워크

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차(AI Coordination Gap)란 AI 시스템의 _실제 자율성 수준(actual autonomy level)_이 명시적으로 선언되지 않아, 인간과 하위 구성 요소들이 그 출력물을 얼마나 신뢰해야 할지 추측해야 할 때 발생하는 실패를 의미합니다. 이는 대부분의 AI 실패가 모델 자체의 실패가 아니라, 권한이 선언되지 않아서 발생하는 실패라는 시스템적 문제를 지칭합니다.

그것은 무엇인가 — 쉬운 언어로 설명하는 조정 격차

Hyslop의 아들은 모든 엔지니어가 프로덕션(production) 환경에서 목격하는 것과 동일한 격차를 경험합니다. 그녀는 다음과 같이 적었습니다: 'AI를 사용해서 아마 A를 받거나, 아니면 AI를 사용했다가 친구들에게 판단을 받거나 선생님에게 처벌받을 위험을 감수하거나.' 아무도 그에게 AI가 얼마나 허용되는지 말해주지 않았습니다. 그러한 모호함 — 그 회색 지대 — 가 바로 조정 격차 (Coordination Gap)입니다.

프로덕션 AI 기술에서 이와 동일한 실패는 다음과 같은 모습으로 나타납니다: RAG (Retrieval-Augmented Generation) 파이프라인이 문서를 검색하고, LLM (Large Language Model)이 이를 요약하며, 에이전트 (agent)가 요약본을 바탕으로 행동하고, 하위 서비스 (downstream service)가 그 행동을 그라운드 트루스 (ground truth)로 신뢰합니다. 그 어떤 단계에서도 어떤 구성 요소도 '이 출력은 73%의 확신도를 가지며 인간의 검토가 필요함'이라고 선언하지 않습니다. 각 연결 고리는 이전 연결 고리가 권위가 있다고 가정합니다. 이것이 바로 각 단계의 신뢰도가 97%인 6단계 파이프라인이 엔드 투 엔드 (end-to-end)로는 약 83%로 무너지는 방식입니다 (0.97⁶ ≈ 0.83). 이 원리는 연쇄적 LLM 추론에 관한 연구에 잘 문서화되어 있으며, 신뢰성 공학 (reliability engineering)의 고전적인 신뢰성 이론을 반영합니다. 대부분의 팀은 이를 제품을 출시한 후에야 깨닫게 됩니다.

단계별 신뢰도가 97%인 6단계 파이프라인은 엔드 투 엔드 신뢰도가 약 83%에 불과합니다. RUSD는 대부분의 기업 AI 팀이 스스로 해결하기도 전에, 모든 과제에 대해 자율성 (autonomy)을 0-4 단계로 라벨링함으로써 11세 아이들을 위한 이 문제를 해결했습니다.

대부분의 AI 실패는 모델의 실패가 아닙니다. 그것은 선언되지 않은 권한 (undeclared-authority)의 실패입니다. 모델은 괜찮았습니다. 다음 구성 요소에게 모델을 얼마나 신뢰해야 하는지 아무도 말해주지 않았을 뿐입니다.

Diagram comparing a one-prompt Solve AI workflow versus a tiered autonomy-labeled workflow

Hyslop의 아들이 '해결(Solve)' 버튼을 누르는 것 (자율성 레벨 4, 미선언)과 적절하게 계측된 워크플로우 (workflow) 사이의 차이는, 이미지 하나에 담긴 AI 조정 격차 (AI Coordination Gap)의 전부를 보여줍니다.

작동 원리 — 메커니즘과 다이어그램

RUSD의 진정한 통찰은 자율성(autonomy)을 _명시적이고 위치 중심적(explicit and positional)_으로 만든 것이었습니다. 레이블은 작업과 함께 이동하며, 어딘가에 있는 위키(wiki)에 머물지 않습니다. 이를 시스템으로 변환하면, 모든 인수인계(handoff) 단계에 신뢰 수준을 주석으로 다는 조정 계층(coordination layer)을 얻게 됩니다. 이는 현대적인 AI 에이전트 (AI agents) 아키텍처의 이면에 있는 것과 동일한 직관입니다. 흐름은 다음과 같습니다.

자율성 레이블이 지정된 AI 파이프라인 (RUSD 신호등 모델의 프로덕션 적용)

  0

    **작업 수신 (레벨 선언)**

어떤 모델이 실행되기 전에, 오케스트레이터(orchestrator)는 0~4 사이의 자율성 레벨을 할당합니다. 레벨 0 = AI 없음. 레벨 4 = AI가 생성하고 인간이 비평함. 이는 할당 헤더(assignment header)와 유사합니다. 추론되는 것이 아니라 사전에 선언됩니다.

↓

  1
...

벡터 데이터베이스 (vector database)에서 가져온 문서들. 출력값에는 검색 신뢰도 점수(retrieval-confidence score)가 포함됩니다. 노란색 밴드: 지원 전용.

↓

  2
...

모델이 초안 답변을 생성합니다. 결정적으로, 모델은 선언된 레벨과 연결된 자체 평가 신뢰도 및 '검토 필요(review-required)' 플래그를 방출합니다.

↓

  3
...

LangGraph 상태 머신(state machine)이 레벨을 읽습니다. 임계값 미만 → 인간에게 라우팅. 임계값 도달/초과 → 진행. 이는 프로그래밍 방식으로 이루어지는 녹색/노란색/빨간색 결정입니다.

↓

  4
...

레벨 4에서 시스템은 동작하지만, 인간의 사실 확인(fact-checking)을 위해 모든 것을 로그로 남깁니다. 이는 정확히 RUSD의 '4 = AI가 생성하고, 학생이 비평 및 사실 확인을 함'과 일치합니다. 아무것도 맹목적으로 신뢰하지 않습니다.

단계 0에서 설정된 자율성 레벨이 모든 하위 게이트(downstream gate)를 제어하기 때문에 이 순서가 중요합니다. 즉, 모델이 실행되기도 전에 조정 격차(Coordination Gap)를 닫아버리는 것입니다.

~83%
단계당 97%의 신뢰도를 가진 6단계 파이프라인의 엔드 투 엔드(End-to-end) 신뢰도
[복리 오차 원리, arXiv 2024](https://arxiv.org/abs/2210.03629)
...

전체 기능 목록 — 조정 프레임워크의 4가지 계층

RUSD의 정책을 추상화하면, 어떤 AI 리드(AI lead)라도 배포할 수 있는 4계층 프레임워크가 도출됩니다. 저는 많은 팀이 직관(vibes)이나 코드 주석을 통해 이 단계에 도달하려 노력하는 것을 보았습니다. 하지만 그것은 통하지 않습니다. 네 가지 계층이 모두 필요합니다. 하나라도 건너뛰면 격차(gap)는 다시 벌어집니다.

계층 1 — 선언 (Declaration, 과제 헤더)

모든 작업은 명시적인 자율성 수준(autonomy level)과 함께 시작됩니다. RUSD는 이를 과제 헤더에 인쇄합니다. 여러분의 시스템에서는 작업 객체(task object) 내의 필수 필드가 됩니다. 수준이 지정되지 않으면 실행되지 않습니다. 이 단 하나의 규칙이 Hyslop이 설명한 '회색 지대(gray zone)'를 제거합니다. 즉, 그녀의 아들이 'Solve'라고 타이핑하는 것이 부정행위인지 아니면 단순히 영리한 행동인지 알 수 없었던 바로 그 지대 말입니다.

계층 2 — 신뢰도 전파 (Confidence Propagation)

각 구성 요소는 반드시 신뢰도 신호(confidence signal)를 방출하고 전달해야 합니다. 검색(retrieval) 단계는 '이 청크(chunks)들은 0.81의 코사인 유사도(cosine similarity) 점수를 기록했다'라고 말합니다. LLM은 '나는 0.6만큼 확신한다'라고 말합니다. 전파(propagation)가 없다면, 하위 구성 요소(downstream components)는 맹목적인 신뢰를 기본값으로 설정하게 되며, 이것이 바로 조정 격차(Coordination Gap)의 핵심입니다. 저는 운영 환경(prod)에서 문제가 발생한 후, 출시 6개월이 지나서야 팀들이 사후에 이를 구현하는 것을 보았습니다. 첫날부터 이를 구축하십시오.

조직된 프레임워크

AI 조정 격차 (The AI Coordination Gap, 적용 사례)

신뢰도가 전파되지 않으면, 모든 핸드오프(handoff) 과정에서 '아마도'가 '확실히'로 소리 없이 격상됩니다. 조정 격차(Coordination Gap)란 다단계 파이프라인(multi-step pipeline) 전반에 걸쳐 발생하는 이러한 소리 없는 격상들의 누적 비용을 의미합니다.

계층 3 — 게이팅 (Gating, 신호등)

수준(level)과 신뢰도(confidence)를 세 가지 경로 중 하나로 매핑하는 결정론적 게이트(deterministic gate)입니다: 진행(green), 인간 참여(human-in-loop, yellow), 차단(red). LangGraph의 조건부 엣지(conditional edges)는 정확히 이 용도로 만들어졌습니다. 화려하지는 않지만, 여러분의 그래프에서 진정으로 가장 중요한 노드(node)입니다.

계층 4 — 비판 루프 (Critique Loop, 레벨 4)

최대 자율성 상태에서도 시스템은 여전히 인간 또는 보조 에이전트(secondary-agent)의 비판을 요구합니다. RUSD의 레벨 4는 'AI가 알아서 한다'가 아니라, 'AI가 수행하고 학생이 사실 확인(fact-check)을 한다'입니다. 그 차이가 증강(augmentation)과 아웃소싱(outsourcing)을 가르는 기준입니다. 또한, 이는 현재 대부분의 래퍼 스타트업(wrapper startups)들이 간과하고 있는 차이점이기도 합니다.

사고를 외주 주는 학생과 사고를 증강 (augment)하는 학생의 차이는, 맹목적으로 행동하는 AI 에이전트와 자신의 확신(confidence)을 먼저 선언하는 AI 에이전트의 차이와 같습니다.

Four-layer AI coordination framework showing declaration, confidence propagation, gating, and critique loop

RUSD의 신호등 및 0-4 정책을 프로덕션 멀티 에이전트 스택 (production multi-agent stack)에 직접 매핑한 AI 조정 격차 (AI Coordination Gap) 프레임워크의 4개 계층.

접근 및 사용 방법 — 실제 시연

이것은 라이선스를 받는 것이 아니라, 직접 구축하는 것입니다. 다음은 자율성 게이트 (autonomy gate)의 실제 실행 가능한 LangGraph 구현 예시입니다. 이는 프로덕션 준비가 된 패턴 코드입니다 (LangGraph는 GA(General Availability) 상태이지만, 더 넓은 의미의 자율성 라벨링 (autonomy-labeling) 분야는 여전히 신흥 관행입니다). 아래 코드는 제가 새로운 에이전트 프로젝트를 시작할 때 사용하는 방식입니다.

Python — LangGraph 자율성 게이트

pip install langgraph langchain-anthropic

from langgraph.graph import StateGraph, END
from typing import TypedDict

class TaskState(TypedDict):
autonomy_level: int # 0-4, 사전에 선언됨 (Layer 1)
confidence: float # 모델로부터 전달됨 (Layer 2)
answer: str
route: str

def reasoning_node(state: TaskState) -> TaskState:
# LLM이 답변 + 자체 평가된 확신(confidence)을 생성
state['answer'] = 'x = 7' # 샘플 모델 출력
state['confidence'] = 0.62 # 샘플 확신도
return state

def gate(state: TaskState) -> str:
# Layer 3: 신호등
if state['autonomy_level'] == 0:
return 'block' # 빨간색
if state['confidence'] < 0.75:
return 'human' # 노란색
return 'proceed' # 초록색

graph = StateGraph(TaskState)
graph.add_node('reason', reasoning_node)
graph.add_conditional_edges('reason', gate, {
'block': END, 'human': 'review', 'proceed': 'act'
})
graph.set_entry_point('reason')

실행 입력: autonomy_level = 4 (AI가 생성하고 인간이 비평함)인 숙제 해결 작업이 도착함.

Step 1: reasoning_node가 answer='x = 7', confidence=0.62를 반환합니다.

Step 2: gate가 level ≠ 0 이고 confidence 0.62 < 0.75 임을 확인 → 'human'을 반환합니다.

AI 기술의 조정 격차: 한 교육구가 기업 엔지니어들이 해결하지 못한 문제를 해결한 방법

요약

핵심 포인트