[AI 에이전트를 30일 동안 방치해 보았다] 실제로 무엇이 망가졌는가

항상 깨어 있는 AI 에이전트(AI agent)가 약속하는 바는 부끄러울 정도로 단순합니다. 업무를 설명하고 잠자리에 들면, 업무가 완료된다는 것입니다. "나중에 다시 이야기하죠"라는 말도, 유급 휴가(PTO)도, 월요일의 업무 적응 시간도 필요 없습니다. 1인 운영자에게 이것은 단순한 생산성 해킹이 아니라, 비즈니스를 운영하는 것과 비즈니스에 휘둘리는 것 사이의 차이입니다.

저는 그 약속을 믿고 구매했습니다. 그리고 30일 동안 실제로 그것과 함께 생활했습니다. 하나의 OpenClaw 에이전트를 제 백오피스(back office) 업무—수신함 분류(inbox triage), 리드 조사(lead research), 후속 조치 초안 작성, 몇 가지 정기 보고서 작성—에 할당했습니다. 대규모 군단이 아니었습니다. 단 하나의 에이전트, 한 명의 운영자, 그리고 실제 돈이 걸린 진짜 업무였습니다.

작동했습니다. 대부분은요. 하지만 작동하지 않았던 방식들은 그 어떤 벤치마크(benchmark)보다도 프로덕션(production) 환경에서 에이전트를 운영하는 것에 대해 더 많은 것을 가르쳐 주었습니다. 여기 랜딩 페이지에는 아무도 적어두지 않는 사실이 있습니다. 실패의 원인 중 모델이 멍청해서 발생한 것은 단 하나도 없었다는 점입니다. 모든 실패는 운영상의 문제(operations problem)가 트렌치코트를 입고 나타난 모습이었습니다. 저를 실제로 괴롭혔던 세 가지 문제와, 각각에 대해 여러분이 해야 할 일들을 말씀드리겠습니다.

1. 느린 건망증 (일명 컨텍스트 부패 (context rot))

첫 주는 마법 같았습니다. 둘째 주가 되자, 제 에이전트는 자신 있게 틀린 결정을 내리기 시작했습니다. 이전의 결정이 일어나지 않았던 것처럼 스레드에 답장하거나, 이미 자격을 검증한 리드를 다시 조사하고, 그날 아침에 내린 지침을 조용히 부정했습니다.

이제 이것은 **컨텍스트 부패 (context rot)**라고 불립니다. 세션이 길어짐에 따라 컨텍스트 윈도우(context window)가 자체 기록으로 가득 차게 되고, 정보가 기술적으로는 여전히 존재함에도 불구하고 그 안에 있는 내용을 검색하고 실행하는 에이전트의 능력이 저하됩니다. 일관성(Coherence)은 대략 20~30회의 턴(turn) 지점부터 측정 가능한 수준으로 떨어지기 시작합니다. 에이전트가 잊어버리는 것이 아니라, 무엇이 중요한지 더 이상 구분하지 못하는 것입니다. 2025년 배포 사례들을 분석한 결과, 기업용 에이전트 실패의 약 3분의 2는 원시 능력(raw capability)의 문제라기보다 컨텍스트 드리프트(context drift)와 메모리 손실 때문인 것으로 나타났습니다. 이는 제 경험과 정확히 일치했습니다.

해결책은 더 똑똑한 모델을 쓰는 것이 아닙니다. 그것은 위생(hygiene)의 문제입니다:

세션을 하루 단위가 아닌 작업(task) 단위로 제한하세요. 워크플로우마다 새로운 컨텍스트(context)를 사용하는 것이 영웅적인 마라톤식 스레드 하나를 유지하는 것보다 훨씬 낫습니다.
중요한 사항들을 영구적인 메모리(durable memory)에 체크포인트(checkpoint)로 저장하세요 — 결정 사항, 제약 조건, "하지 말아야 할" 규칙 등 — 그래야 다음 세션에서 9,000토큰 분량의 스크롤백(scrollback)을 통해 의도를 재구성하는 대신, 의도를 바로 다시 불러올 수 있습니다.
컨텍스트 윈도우(window)가 무거워지기 전에 요약하고 압축하세요, 드리프트(drift) 현상이 나타난 후가 아니라 미리 해야 합니다.

지루한가요? 네. 하지만 이것은 제가 바꾼 것 중 가장 레버리지(leverage)가 높은 단 하나의 방법이기도 합니다.

2. 새벽 3시의 조용한 죽음

아홉 번째 밤, 프로세스가 죽었습니다. 스택 트레이스(stack trace)와 함께 충돌(crash)하며 죽은 것이 아니라, 그냥 멈춰버린 것입니다. OOM(Out of Memory), 불안정한 업스트림 API, 무엇 때문인지는 모릅니다. 저는 오전 8시가 되어서야 알게 되었습니다. 아침 브리핑이 도착하지 않았고, "어제 일과 종료 전까지" 보내기로 약속했던 고객 후속 조치 메일이 여전히 초안(drafts)에 남아 있었기 때문입니다.

여기에 함정이 있습니다. 저는 에이전트를 일정에 맞춰 설정해 두고 그것을 "자동화"되었다고 불렀습니다. 하지만 크론 잡(cron job)은 관리자(supervisor)가 아닙니다. 스케줄링은 프로세스가 언제 시작할지를 알려줄 뿐, 프로세스를 살아있게 유지하거나, 프로세스가 멈췄을 때 이를 감지하거나, 다시 복구하는 것에 대해서는 아무것도 말해주지 않습니다. 항상 켜져 있는 에이전트는 롱 러닝 서비스(long-running service)이며, 롱 러닝 서비스는 다른 모든 프로덕션 서비스가 필요로 하는 것과 동일한 것이 필요합니다:

에이전트가 단순히 실행 중인 것이 아니라 실제로 응답하고 있는지 확인하는 상태 하트비트(health heartbeat).
일시적인 오류가 하루의 작업 누락으로 이어지는 대신 스스로 치유될 수 있도록, 백오프(backoff)를 포함한 실패 시 자동 재시작(automatic restart).
스스로 치유할 수 없을 때 사람에게 알림(alert to a human)을 보내는 것 — 왜냐하면 조용한 실패(silent failure)가 최악의 실패이기 때문입니다.

에이전트는 새벽 3시에 더 똑똑해질 필요가 없었습니다. 저 대신 돌봐줄 베이비시터가 필요했을 뿐입니다.

3. 되돌릴 수 없었던 행동

정말로 가슴이 철렁 내려앉았던 일은 이것입니다: 에이전트가 실제 시스템(live system)에 대해 제가 깔끔하게 되돌릴 수 없는 행동을 취한 것입니다. 운 좋게 제가 발견했기 때문에 복구할 수 있었지만 말입니다. 자율 에이전트(Autonomous agents)는 실제 세상에서 _행동_합니다 — 그것이 에이전트의 존재 이유입니다 — 이는 확신에 찬 잘못된 움직임이 다시 생성(reroll)할 수 있는 나쁜 문단이 아니라는 것을 의미합니다. 그것은 이미 발송된 이메일이고, 변경된 기록이며, 이미 일어나 버린 사건입니다.

첫날부터 있었으면 좋았을 것들:

관측 가능성 (Observability) — 에이전트가 내놓은 최종 답변뿐만 아니라, 에이전트가 무엇을 왜 했는지에 대한 실제적이고 읽기 쉬운 추적(trace)이 필요합니다. 무언가 잘못되어 보일 때, "무슨 생각을 하고 있었던 거지?"라는 질문이 미스터리로 남아서는 안 됩니다.
스냅샷 및 롤백 (Snapshot and rollback) — 검증된 상태(known-good state)를 고정하고 그 상태로 되돌릴 수 있는 능력입니다. 가역성(Reversibility)은 심장이 내려앉을 만한 사고를 가벼운 어깨 으쓱 정도로 바꿔줍니다.
되돌릴 수 없는 작업에 대한 가드레일 (Guardrails on irreversible actions) — 돈, 고객, 또는 운영 데이터(production data)에 영향을 미치는 모든 작업에 대한 확인 단계나 드라이 런(dry-run)이 필요합니다.

이것이 바로 "비결정론적 출력 (non-deterministic output)" 문제가 더 이상 학술적인 논의에 머물지 않는 지점입니다. 설문 조사들은 예측 불가능성을 에이전트를 실제 운영 환경(production)에 배치하는 데 있어 첫 번째 장벽으로 계속 지목하고 있습니다. 예측 불가능성에 대한 해답은 그것이 없는 척하는 것이 아니라, 감당할 수 있는 폭발 반경(blast radius)을 구축하는 것입니다.

패턴 뒤에 숨겨진 패턴

한 걸음 물러나서 보면 세 가지 실패는 서로 맞닿아 있습니다. 메모리 관리(Memory management), 감독(supervision), 가역성(reversibility) — 이 중 어느 것도 지능의 문제는 아닙니다. 이것들은 영리한 데모를 당신의 이메일 함을 실제로 믿고 맡길 수 있는 무언가로 바꿔주는, 화려하지는 않지만 필수적인 운영용 스캐폴딩(operational scaffolding)입니다.

업계 수치도 이를 뒷받침하며, 그 수치는 냉혹합니다. 에이전트 프로젝트의 약 88%가 운영 환경에 도달하지 못하며, 실패 원인의 약 79%는 역량(capability)의 문제가 아니라 사양(specification) 및 조정(coordination)의 격차에서 기인합니다. 반대 급부도 시사하는 바가 큽니다. 에이전트를 운영 환경에 성공적으로 배치한 팀들 사이의 공통점은 운영에 대한 책임(operational ownership)입니다. 즉, 지정된 담당자, 모든 변경 사항에 대한 자동화된 평가(automated evals), 기본값으로서의 모니터링이 존재합니다. 모델은 결코 어려운 부분이 아니었습니다. 그것을 실행하는 것이 어려웠던 것입니다.

신뢰성 계층을 직접 구축하거나, 아니면 빌려 쓰거나

솔직한 트레이드오프(tradeoff)는 다음과 같습니다. 재시작 로직(restart logic)을 갖춘 감독관(supervisor), 메모리 체크포인팅(memory-checkpointing) 전략, 스냅샷/롤백(snapshot/rollback) 시스템, 실제 백업, 관측성 파이프라인(observability pipeline), 그리고 온콜(on-call) 당번 체계까지 이 모든 것을 직접 구축할 수 있습니다. 축하합니다, 그 온콜 당번은 바로 당신이 될 것입니다. 어떤 사람들에게는 이것이 진정으로 올바른 선택일 수 있으며, 결정하기 전에 관리형(managed)과 자체 호스팅(self-hosted)을 한 줄씩 비교하여 검토해 보시길 권장합니다.

하지만 대부분의 1인 운영자에게는 계산이 맞지 않습니다. AI 에이전트의 목적은 차별화되지 않은 업무(undifferentiated work)를 중단하는 것이었는데, 본인만의 어시스턴트를 위한 SRE(Site Reliability Engineer)가 되는 것은 그 무엇보다 차별화되지 않은 업무이기 때문입니다. 실제로 본인의 시간당 비용을 포함하여 OpenClaw를 자체 호스팅할 때 드는 비용을 합산해 보았을 때, "무료"는 더 이상 무료로 보이지 않았습니다.

이것이 관리형 인프라에서 OpenClaw를 실행하는 이면에 깔린 베팅입니다. 다른 누군가가 신뢰성 계층(reliability layer) — 즉, 감독 프로세스(supervised process), 일일 백업, 스냅샷 및 모니터링 — 을 책임지게 함으로써, 당신이 신경 쓰지 않는 동안에도 에이전트가 계속 작동하게 만드는 것입니다. 직접 구축하지 않고도 이를 원하신다면, RapidClaw의 관리형 플랜은 감독관, 스냅샷 및 백업을 패키지로 제공하며 월 $29부터 시작합니다.

30일이 지난 지금, 제 에이전트는 여전히 실행 중입니다. 1주 차와 지금의 차이는 더 나은 모델을 사용한다는 것이 아닙니다. 지루한 부분들이 마침내 처리되었다는 것 — 그리고 저는 다시 잠을 자러 갈 수 있었다는 것입니다.

— Tijo Gaucher, RapidClaw