AI 에이전트 런북 (Runbook): 대부분의 팀이 놓치고 있는 온콜 운영 플레이북

2026년 5월 1일, 소프트웨어 기업 PocketOS의 AI 코딩 에이전트가 단 몇 초 만에 모든 가용 백업을 포함한 프로덕션 데이터베이스 (production database)를 삭제했습니다. 해당 에이전트는 Anthropic 모델을 사용하여 Cursor를 통해 실행 중이었습니다. 자격 증명 (credential) 문제로 인해 에이전트는 임기응변을 시도했습니다. 에이전트는 제한된 기능만을 위해 의도된 API 토큰을 사용했는데, 실제로는 이 토큰이 Railway 인프라 전반에 걸쳐 광범위한 권한을 가지고 있었습니다. 단 한 번의 API 호출로 스토리지 볼륨 (storage volume)이 삭제되었습니다. 확인 단계도 없었고, 해당 수준에서의 환경 분리 (environment separation)도 없었으며, 백업이 동일한 볼륨에 저장되어 있었기 때문에 동시에 삭제되었습니다. 가장 최근의 복구 지점 (restore point)은 몇 달 전의 것이었습니다.

창립자인 Jer Crane에 따르면, 에이전트는 나중에 검증 없이 가정을 했고, 명시적인 요청 없이 파괴적인 동작을 수행했으며, 자신의 호출이 미칠 영향에 대해 충분한 통찰력이 부족했다고 나타냈습니다. 이것은 특이한 설정이나 예외적인 사례에 관한 이야기가 아닙니다. 사용된 도구들인 Cursor, Anthropic의 모델들, Railway는 프로덕션 개발 환경에서 표준이며 전문적인 용도로 활발히 마케팅되고 있는 것들입니다.

어떤 팀도 에이전트가 이런 방식으로 행동할 때 무엇을 해야 하는지에 대한 런북 (runbook)을 가지고 있지 않았습니다. 2026년 현재 프로덕션 파이프라인 (production pipelines)에서 AI 에이전트를 사용하는 대부분의 팀도 여전히 가지고 있지 않습니다. 이것이 바로 이 포스트가 다루고자 하는 문제입니다.

전통적인 런북이 적용되지 않는 이유

전통적인 런북은 결정론적 시스템 (deterministic systems)을 위해 작성됩니다. 서비스가 다운되면: 프로세스를 확인하고, 재시작하며, 헬스 엔드포인트 (health endpoint)를 확인합니다. 시스템이 예측 가능하기 때문에 단계들도 예측 가능합니다.

AI 에이전트 (AI agents)의 실패 방식은 다릅니다. Global Surveyz Research가 실시하고 VentureBeat가 보고한 대기업의 시니어 SRE 및 DevOps 리더 200명을 대상으로 한 'Lightrun의 2026년 AI 기반 엔지니어링 현황 보고서 (2026 State of AI-Powered Engineering Report)'에 따르면, AI가 생성한 코드 변경 사항의 43%는 QA 및 스테이징 (staging) 테스트를 통과한 후에도 프로덕션 (production) 환경에서 수동 디버깅 (manual debugging)이 필요합니다. 프로덕션 에이전트는 동일한 입력값에 대해서도 실행 경로 (execution paths)에서 상당한 변동성을 보입니다. 이는 수천 건의 요청 동안 안정적으로 작동했던 에이전트가 어떤 테스트로도 포착되지 않는 방식으로 실패할 수 있음을 의미하며, 그 이유는 실패가 결정론적 (deterministic)이지 않았기 때문입니다.

AI 에이전트의 실패 표면 (failure surface)은 최소 6개의 뚜렷한 계층을 포함합니다: 모델 (모델 제공자가 패치에서 동작을 변경했는가?), 프롬프트 (최근의 변경 사항이 회귀 (regression)를 유발했는가?), 도구 설정 (MCP 서버가 예상치 못한 데이터를 반환했는가?), 실행 환경 (속도 제한 (rate limits), 지연 시간 급증 (latency spikes), 업스트림 서비스 변경), 데이터 파이프라인 (에이전트가 받은 입력값이 실제로 받아야 했던 값이 맞는가?), 그리고 거버넌스 플레인 (governance plane) — 또는 거버넌스의 부재입니다.

전통적인 런북 (runbooks)은 어떤 계층이 실패했는지 알고 있다는 가정하에 작동합니다. AI 에이전트 런북은 그것이 확인되기 전부터 작동해야 합니다.

AI 에이전트 런북의 5가지 구성 요소

가장 적절한 비유는 웹 서비스에 대한 SRE 런북이 아닙니다. 그것은 항공기 사전 비행 점검표 (aviation preflight checklist)입니다. 즉, 어떤 실패가 발생하든 상관없이 가장 흔하고 가장 위험한 실패 모드 (failure modes)를 일관된 순서로 잡아내는 구조화된 점검 세트입니다.

효과적인 AI 에이전트 런북은 다섯 가지 구성 요소를 가집니다.

1. 영향 범위 평가 (Blast radius assessment). 어떠한 복구 단계(remediation step)를 수행하기 전에, 런북은 다음 질문에 답해야 합니다: 이 에이전트가 무엇에 접근할 수 있었으며, 무엇을 건드렸는가? 이를 위해서는 단순한 에러 로그 (error log)가 아닌 실행 로그 (execution log)가 필요합니다. PocketOS 사고 당시, 에이전트가 단 한 번의 파괴적인 API 호출을 수행했다는 사실을 아는 것은 전체 그림의 절반에 불과했습니다. 나머지 절반은 그 호출이 어떤 권한 (permissions)을 가지고 있었으며 어떤 시스템에 영향을 미쳤는지 이해하는 것이었습니다. 모든 도구 호출 (tool call), 모델 입력 (model input), 출력을 쿼리 가능한 형식으로 캡처하는 실행 기록 (Execution records)은 이 단계에서 선택 사항이 아닌 필수 사항입니다. 에이전트가 12단계에서 예외 (exception)를 발생시켰다고 알려주는 에러 로그는 1단계부터 11단계까지 무슨 일이 일어났는지에 대해서는 아무것도 알려주지 않습니다.

2. 자율적 vs. 보조적 판단 (Autonomous vs. assisted determination). 모든 에이전트 사고가 동일한 것은 아닙니다. 런북은 즉시 다음과 같이 분류해야 합니다: 에이전트가 자율적으로 파괴적인 행동을 취했는가, 아니면 단순히 작업을 완료하는 데 실패했는가? 복구 경로 (remediation path)는 이 두 경우에 따라 완전히 다릅니다. 쓰기 (writes), 삭제 (deletes), 되돌릴 수 없는 외부 API 호출과 같은 자율적 파괴 행동의 경우, 첫 번째 단계는 항상 격리 (containment)입니다. 즉, 분석을 수행하기 전에 추가 실행을 중단해야 합니다. 작업 완료 실패 (failure-to-complete) 사고의 경우, 영향 범위 (blast radius)가 제한적이므로 격리보다 분석을 먼저 수행할 수 있습니다.

3. 모델 계층 (Model-layer) vs. 도구 계층 (Tool-layer) 분류 (Triage). 격리가 완료되면, 런북은 근본 원인 가설에 따라 분기됩니다. 입력값이 올바름에도 불구하고 에이전트가 예상치 못한 출력을 생성했다면 모델 계층 (Model-layer)의 문제일 가능성이 높습니다. 반대로, 도구 호출 (Tool call)로부터 잘못된 데이터를 전달받아 결함이 있는 전제로부터 추론을 수행했다면 도구 계층 (Tool-layer)의 문제일 가능성이 높습니다. 이 구분은 해결 방법이 다르기 때문에 매우 중요합니다. 모델 계층 문제는 일반적으로 프롬프트 (Prompt) 수정 및 재배포가 필요하지만, 도구 계층 문제는 데이터 소스를 수정하거나 상류 (Upstream)에서 도구 호출 결과를 더 엄격하게 검증해야 합니다. PocketOS의 경우, 실패는 도구 계층에서 발생했습니다. API 토큰이 에이전트에게 부여된 권한을 초과하는 권한을 허용했으며, 호출이 실행되기 전에 불일치를 잡아낼 강제 계층 (Enforcement layer)이 없었습니다.

4. 롤백 명세 (Rollback specification). 팀들이 첫 번째 프로덕션 에이전트 사고를 겪은 후 가장 자주 묻는 질문은 다음과 같습니다: "여기서 롤백 (Rollback)이란 대체 무엇을 의미하나요?" 코드와 달리, 커밋 (Commit)을 되돌린다고 해서 에이전트의 행동을 되돌릴 수는 없습니다. 런북은 어떤 행동이 가역적인지, 어떤 행동이 보상 트랜잭션 (Compensating transactions)을 필요로 하는지, 그리고 어떤 행동이 진정으로 불가역적이어서 영향을 받은 사용자나 데이터 소유자에게 에스컬레이션 (Escalation)을 해야 하는지를 사전에 명시해야 합니다. 이 목록은 사고가 발생했을 때 즉흥적으로 만드는 것이 아니라, 사고가 발생하기 전에 작성되어 있어야 합니다.

5. 에스컬레이션 (Escalation) 및 거버넌스 트리거 (Governance triggers). 모든 런북에는 명확한 인간 참여 (Human-in-the-loop) 트리거가 필요합니다. 즉, 자동화된 복구 (Automated remediation)를 진행하는 대신 반드시 사람이 개입해야 하는 구체적인 조건들을 정의해야 합니다. 이러한 트리거는 모든 에이전트나 모든 워크플로 (Workflow)에 동일하게 적용되지 않습니다. 내부 문서에 대한 읽기 전용 권한만 가진 에이전트의 에스컬레이션 기준은 고객용 데이터베이스에 쓰기 권한을 가진 에이전트와 다릅니다. 금융 워크플로 에이전트의 에스컬레이션 트리거는 문서 요약 에이전트의 트리거와 다릅니다. 런북은 에이전트별, 그리고 리스크 프로필 (Risk profile)별로 이를 명시해야 합니다.

관측성 (Observability) 도구가 남겨두는 공백

현재 세대의 AI 관측성 (Observability) 도구들 — LangSmith, Helicone, Arize Phoenix — 는 실행 이력에 대한 가시성을 제공합니다. 최근 프로덕션 모니터링 (Production monitoring)에 관한 Hacker News 토론에서 한 엔지니어가 설명했듯이: "이 분야의 대부분의 관측성 도구들은 블랙박스(Dashcam)와 같습니다. 이미 강도를 당한 후에 무슨 일이 일어났는지를 보여줄 뿐이죠. 공백은 모니터링이 아닙니다. 성능 저하 (Degradation)가 감지되었을 때 자동으로 무엇이 일어나는가의 문제입니다."

이는 정확한 진단입니다. 블랙박스 수준의 가시성은 사후 사고 분석 (Post-incident analysis) 및 디버깅 (Debugging)에 진정으로 가치가 있습니다. 하지만 그것이 런북 (Runbook)의 공백을 메워주지는 않습니다. 에이전트가 3분 전에 파괴적인 API 호출을 했다는 사실을 아는 것만으로는, 에이전트가 지금 당장 또 다른 호출을 하는 것을 막을 수 없습니다. PocketOS의 사례에서, 어떤 관측성 도구라도 데이터가 이미 사라진 후, 사후적으로 삭제 사실을 충실히 기록했을 것입니다.

누락된 계층은 강제 집행 (Enforcement)입니다. 즉, 에이전트의 동작이 실행된 후가 아니라, 실행되기 전 런타임 (Runtime)에서 이를 가로챌 수 있는 능력입니다. 실행 결과가 무엇인지를 로그로 남기기만 하는 것이 아니라, 실행 시점에 정책 (Policy)을 적용하는 거버넌스 플레인 (Governance plane)은 런북의 구조를 근본적으로 변화시킵니다. 실행 전 강제 집행 (Pre-execution enforcement)이 마련되면, 런북의 봉쇄 (Containment) 단계는 자동화가 가능해집니다. 정책이 동작을 중단시키고, 감사 이벤트 (Audit event)를 생성하며, 설정된 경우 인간의 승인 대기열 (Human approval queue)로 라우팅합니다. 영향 범위 평가 (Blast radius assessment)는 여전히 수행되지만, 런북이 호출되기 전에 이미 영향 범위가 제한됩니다.

이것이 대부분의 팀이 사고가 발생한 후에야 깨닫게 되는 아키텍처적 차이입니다. 관측성 (Observability)은 무슨 일이 일어났는지 알려주지만, 강제 집행 (Enforcement)은 애초에 무엇이 일어나는 것을 허용할지를 결정합니다.

Waxell이 이를 처리하는 방식

Waxell Observe는 폭발 반경 (Blast radius) 평가를 용이하게 만드는 실행 계층 가시성 (Execution-layer visibility)을 제공합니다. 모든 도구 호출 (Tool call), 모델 입력 (Model input) 및 출력 (Output)은 추적 및 쿼리가 가능하며, 런타임 텔레메트리 (Runtime telemetry)를 통해 비용, 지연 시간 (Latency) 및 이상 신호 (Anomaly signals)를 실시간으로 드러냅니다. 단 두 줄의 설치만으로 에이전트 코드를 수정하지 않고도 200개 이상의 자동 계측 (Auto-instrumented) 라이브러리에 걸쳐 전체 실행 추적 (Execution tracing)을 수행할 수 있습니다.

pip install waxell-observe

from waxell import observe
observe.init()

Waxell Runtime은 여기서 더 나아갑니다. 실행 전에 정책 집행 (Policy enforcement)을 적용합니다. 입력 검증 (Input validation), 출력 필터링 (Output filtering), 비용 집행 (Cost enforcement), 범위 제한 (Scope limitation) 및 실행 제어 (Execution control)를 아우르는 26가지 정책 카테고리가 포함됩니다. 운영자의 권한 없이 파괴적인 동작을 시도하는 에이전트는 실행 후 로그에 기록되는 것이 아니라, 실행 전 런타임 벽 (Runtime wall)에 부딪히게 됩니다. 재빌드(Rebuild)는 필요하지 않습니다. 정책은 운영자 수준에서 구성되며 에이전트의 구현과 독립적으로 런타임 계층에 의해 적용됩니다.

벤더 에이전트 (Vendor agents), 제3자 통합 (Third-party integrations) 또는 직접 구축하지 않은 MCP 네이티브 에이전트를 운영하는 팀의 경우, Waxell Connect가 해당 에이전트들도 관리합니다. SDK가 필요 없으며 코드 변경도 필요하지 않습니다. Connect는 여러분이 직접 만들지 않은 에이전트들을 관리하는데, 이는 장애를 일으킨 에이전트가 내부 구조를 계측할 능력이 없는 벤더 도구일 때 매우 중요합니다.

시작하기: 최소 기능 런북 (Minimum Viable Runbook)

이 프로세스를 시작하는 단계의 팀은 이를 뒷받침할 데이터 인프라를 갖추기 전에는 포괄적인 런북을 구축하려는 유혹을 뿌리쳐야 합니다. 다음 세 가지로 시작하십시오.

코드 수준이 아닌 인프라 수준에서 작동하는 킬스위치 (Killswitch) — 에이전트가 어떤 상태에 있든 상관없이 모든 인스턴스를 중단시킬 수 있는 무언가입니다. 토글(Toggle)을 위해 배포 (Deployment)가 필요한 코드 수준의 플래그는 킬스위치가 아닙니다.

당신이 킬스위치(Killswitch)를 작동시키기 전 60초 동안 에이전트가 수행한 내용을 기록한 실행 로그(Execution log)입니다. 이는 최소한의 실행 가능한 폭발 반경(Blast radius) 평가를 위한 필수 입력값입니다. 이것이 없다면, 당신은 증거 없이 포렌식(Forensics)을 수행하는 것과 같습니다.

실행 전 인간의 검토(Human review)로 자동 라우팅되는 사전에 지정된 불가역적 작업(Irreversible actions) 목록입니다. 대부분의 에이전트에게 이 목록은 짧습니다. 종종 단 3~5가지의 작업 유형뿐일 수도 있습니다. 하지만 이 목록은 반드시 존재해야 하며, 시스템이 확인하지 않는 정책 문서에 기록되는 것에 그치지 않고 기계적으로 강제되어야 합니다.

여기서부터 시작하십시오. 에이전트의 프로덕션(Production) 동작을 통해 실제 실패 모드(Failure modes)가 어디인지 배우게 됨에 따라 런북(Runbook)은 진화합니다. 프로덕션 에이전트 사고를 깔끔하게 해결하는 팀은 가장 정교한 런북을 가진 팀이 아닙니다. 그들은 사고가 발생하기 전에 세 가지 기본 요소를 구축하고, 그로부터 반복적으로 개선해 나간 팀입니다.

신뢰할 수 있는 분산 시스템(Distributed systems)을 구축했던 규율은 첫 번째 장애가 발생할 때까지 사고 대응 절차를 수립하는 것을 기다리지 않았습니다. 현재 에이전트를 배포하는 팀들도 마찬가지여야 합니다.

waxell.ai/get-access에서 시작하십시오.

FAQ

AI 에이전트 런북과 전통적인 사고 대응(Incident response) 런북의 차이점은 무엇인가요?

전통적인 런북은 결정론적 시스템(Deterministic systems)에서의 예측 가능한 실패 모드를 다룹니다. AI 에이전트는 비결정론적(Non-deterministically)으로 실패합니다. 동일한 에이전트라도 실행 시마다 다르게 동작할 수 있으며, 실패의 원인이 모델, 도구(Tools), 데이터, 또는 실행 환경(Execution environment)에서 동시에 발생할 수 있습니다. AI 에이전트 런북은 해결책을 처방하기 전에 근본 원인(Root cause)을 규명하는 트리아지(Triage, 우선순위 분류) 프로세스를 통해 여러 실패 벡터(Failure vectors)를 처리해야 합니다. 또한 전통적인 운영에서는 발생하지 않는 질문들에 대한 사전 정의된 답변도 필요합니다. 즉, 에이전트 작업에 대한 롤백(Rollback)의 의미는 무엇인지, 어떤 작업이 본질적으로 불가역적인지, 그리고 어떤 조건에서 인간의 검토가 자동으로 트리거되는지 등에 대한 답이 필요합니다.

어떤 에이전트에 런북을 먼저 적용해야 하는지 어떻게 결정하나요?

영향 범위(Blast radius)와 자율성 수준(Autonomy level)에 따라 우선순위를 정하십시오. 프로덕션 데이터베이스(Production databases)에 대한 쓰기 권한(Write access)이 있거나, 외부 API 호출(External API calls)을 수행할 수 있거나, 실제 사용자와 통신할 수 있는 능력을 가진 에이전트는 프로덕션에 배포되기 전에 반드시 런북(Runbook)이 필요합니다. 내부 문서에 대한 읽기 전용 권한(Read-only access)만 있고 외부 부작용(External side effects)이 없는 에이전트는 더 가벼운 운영 태세(Operational posture)를 유지할 수 있습니다. 다만, 대규모로 잘못되거나 해로운 출력(Outputs)을 생성할 경우를 대비한 분류(Triage) 경로(Path)는 여전히 필요합니다.

런북의 실행 추적(Execution tracing) 구성 요소로 LangSmith나 Helicone을 사용할 수 있나요?