Uber의 34억 달러 교훈: 당신의 AI 에이전트가 몰래 현금을 태우고 있지는 않습니까? — 에이전트 컴퓨팅 관측 가능성 (Agent Compute Observability) 초보자 가이드

Uber가 5,000명의 엔지니어에게 Claude Code를 배포했을 때, 그들은 4개월 만에 2026년 AI 예산 전체를 소진했습니다. 무슨 일이 일어났는지, 왜 이것이 에이전트를 배포하는 모든 개발자에게 중요한지, 그리고 지금 당장 무엇을 할 수 있는지에 대해 알아봅니다.

34억 달러의 경종

2026년 5월, Uber의 CTO인 Praveen Neppalli Naga는 놀라운 사실을 공개했습니다. 약 5,000명의 엔지니어에게 Claude Code를 배포한 결과, 회사의 2026년 AI 예산 34억 달러가 단 4개월 만에 모두 소진되었다는 것입니다 \u201d1\u201d.

이 상황을 잘 생각해보십시오. 4개월. 34억 달러. 사라졌습니다.

이것은 통제되지 않은 실험이 아니었습니다. 설계된 대로 정확하게 작동한 대규모 배포였습니다. 문제는 아무도 계량기를 지켜보고 있지 않았다는 점입니다.

엔지니어 1인당 비용은 월 500달러에서 2,000달러 사이였으며, 현재 커밋된 코드의 70%가 AI 도구에 의해 생성되고 있습니다 \u201d1\u201d.

Uber만 그런 것이 아니었습니다. Microsoft의 Experiences & Devices 부서는 6월 30일까지 내부 Claude Code 라이선스를 취소하고, 대신 엔지니어들을 GitHub Copilot CLI로 전환할 것이라고 발표했습니다. The Verge가 입수한 내부 메모에 따르면, 2025년 12월에 시작된 Claude Code 파일럿 프로그램에서 수천 명의 개발자가 매우 높은 빈도로 이를 사용함에 따라 토큰 기반 과금(token-based billing)으로 인해 비용이 예상치를 훨씬 초과했습니다 \u201d2\u201d.

심지어 해당 메모에서도 Copilot CLI가 아직 Claude Code와 대등한 수준은 아니라는 점을 인정했습니다. 그들이 전환하는 이유는 Copilot이 더 좋아서가 아니라, 비용을 감당할 수 없기 때문입니다.

핵심 문제: 에이전트는 앱처럼 소비하지 않는다

Microsoft Research는 같은 주에 'AI 에이전트는 당신의 돈을 어떻게 쓰게 만드는가?'라는 제목의 논문을 발표하며 이 문제를 명확히 했습니다 [[3]]. 세 가지 발견이 눈에 띕니다:

1. 에이전트 작업은 단순 질의보다 1,000배 더 많은 토큰을 소비합니다.

'날씨가 어때?'라는 질문에 답하는 챗봇은 수백 개의 토큰을 사용합니다. 여러 도구 호출(tool calls)을 거쳐 계획하고, 실행하고, 재시도하며, 자체적으로 수정하는 에이전트는요? 수백만 개입니다. 그 차이는 선형적이지 않습니다. 세 자릿수 규모의 차이입니다.

2. 동일한 작업에 대한 토큰 사용량은 30배까지 달라질 수 있습니다.

에이전트에게 '경쟁사 가격을 조사하고 결과를 요약해라'라고 요청한다고 가정해 봅시다. 이 에이전트가 몇 개의 도구를 호출하는지, 얼마나 많은 재시도가 필요한지, 그리고 추론 과정(reasoning chain)이 얼마나 상세한지에 따라 토큰 수는 50K에서 1.5M까지 범위가 달라질 수 있습니다. 이것을 신뢰성 있게 예산 책정할 수 없습니다.

3. 기업들은 청구서가 도착하기 전까지는 가시성이 전혀 없습니다.

현재 모델은 이렇습니다: 에이전트를 배포 → 한 달 동안 실행 → API 청구서를 받음 → 충격에 빠짐. 실시간 대시보드가 없고, 에이전트별 비용 할당(cost attribution)도 없으며, 지출이 임계값을 초과할 때 알림 기능도 없습니다.

Mavvrik의 설문조사에 따르면 기업의 85%가 AI 지출이 예측치보다 10% 이상 벗어난다고 보고했으며, 84%는 AI 지출로 인해 매출총이익률(gross margins)이 6 퍼센트 포인트 이상 감소했다고 답했습니다 [[1]]. AI 지출을 관리하는 FinOps 팀은 한 해 동안 31%에서 63%로 두 배가 늘어났는데, 이는 기업들이 더 많은 감독을 원해서가 아니라 그것 없이는 생존할 수 없었기 때문입니다.

휴대폰 데이터 요금제에 비유해 보세요

이 비유가 이해를 돕습니다.

데이터 제한(data cap)이 있는 스마트폰을 처음 받았던 때를 기억하십니까? 월별 할당량을 일주일 만에 다 써버렸는데, 어떤 앱 때문에 그렇게 쓰게 되었는지 전혀 알 수 없었습니다. 그때 운영체제(OS)가 데이터 모니터링 기능을 추가했습니다:

총 사용량 (Total usage): 이번 주 21.31 GB
어떤 앱인가 (Which apps): TikTok이 13.17 GB 사용, WeChat이 0.47 GB 사용
언제 (When): 피크 시간대 오후 2시-7시
추세 (Trend): 지난주 대비 156% 증가
라벨 (Label): "가끔 밤을 새우는 사람 (Occasional night owl)"

그 화면 하나가 당신의 행동을 바꾸었습니다. 당신은 스트리밍을 하기 전에 확인하기 시작했습니다. 80%에서 알림을 설정했습니다. 정보에 기반한 결정을 내렸습니다.

오늘날의 AI 에이전트(AI agents)는 데이터 모니터링 기능이 생기기 전의 스마트폰과 같습니다. 에이전트를 배포하고, 실행시키면, 청구서를 받게 됩니다. 상세 내역도 없고, 알림도 없으며, 에이전트별 귀속(per-agent attribution)도 없고, 행동 패턴도 알 수 없습니다.

에이전트 버전의 모니터링은 다음과 같은 모습일 것입니다:

스마트폰 데이터 모니터링	에이전트 비용 모니터링
총량: 21.31 GB	총액: 이번 달 $4,200
...	...

데이터 구조는 동일합니다. 인사이트 루프(insight loop)도 동일합니다. 부족한 것은 모니터링 계층(monitoring layer)입니다. 우리는 그 계층을 구축했습니다. 그것의 이름은 AgentRisk이며, 이미 28개 플랫폼에서 980,000개 이상의 에이전트를 추적하고 있습니다.

에이전트 관측 가능성(Agent Observability)의 세 가지 단계

모든 모니터링이 동일한 수준의 접근 권한을 요구하는 것은 아닙니다. 각 단계에서 가능한 작업은 다음과 같으며, 결정적으로 각 단계는 다음 단계로 나아가는 열쇠가 됩니다:

1단계: 공개 신호 집계 (Public Signal Aggregation) (현재 사용 가능)

API 접근 권한 없이 외부에서 관찰할 수 있는 사항들입니다:

활동 빈도 (Activity frequency): 이 에이전트가 공개 플랫폼(GPT Store, Coze, Dify)에 얼마나 자주 나타나는가?
플랫폼 분포 (Platform distribution): 어떤 플랫폼에 있는가? 몇 개나 있는가?
업데이트 패턴 (Update patterns): 에이전트가 마지막으로 업데이트된 시점은 언제인가? 활발하게 유지 관리되고 있는가, 아니면 방치되었는가?
커뮤니티 신호 (Community signals): 평점, 리뷰, 다운로드 수
행동 라벨 (Behavioral labels): "고빈도 반복 (High-frequency iteration)", "주말 전사 (Weekend warrior)", "방치됨 (Abandoned)"

이것은 "창밖에서 지켜보는 것"과 같습니다. 얕지만 넓은 범위입니다. 에이전트가 활성화되어 있는지 여부는 알려주지만, 비용이 얼마나 드는지는 알려주지 않습니다. 하지만 사람들이 "잠깐, 이게 내 에이전트라고?"라고 말하게 만드는 전화 요금 명세서 스타일의 보고서를 만들기에는 충분합니다.

2단계: 소유자 승인 사용 데이터 (Owner-Authorized Usage Data) (6-12개월 이내)

에이전트 소유자가 자신의 API 결제 대시보드에 대한 OAuth 액세스 권한을 부여할 때 가능해지는 것들은 다음과 같습니다:

모델별 토큰 소비량 (Token consumption by model): GPT-4o: $1,200, Claude 3.5: $800, Gemini: $400
도구 호출 세부 내역 (Tool call breakdown): 이 에이전트가 가장 많이 호출하는 도구는 무엇인가? ("TikTok vs. WeChat" 관점)
비용 추세 (Cost trend): 변동 폭을 포함한 주간/월간 지출
예산 알림 (Budget alerts): "Agent-A가 월간 할당량의 73%를 소비했습니다"

이것이 바로 진정한 가치가 존재하는 지점이며, 플랫폼의 협조를 필요로 하지 않습니다 — 오직 개발자의 승인만 있으면 됩니다. 이를 신용 조회와 비슷하다고 생각하십시오. Visa는 은행이 데이터베이스를 열어줄 때까지 기다리지 않습니다. 카드 소유자가 조회를 승인합니다.

시장이 이를 강제로 개방하게 될 것입니다. 그 이유는 다음과 같습니다: 기업 구매자들이 조달 조건으로서 비용 투명성을 요구하기 시작했기 때문입니다. 만약 당신이 Fortune 500 기업에 AI 에이전트를 판매하고 있다면, 그들은 "나의 총 소유 비용(Total Cost of Ownership, TCO)은 얼마인가?"라고 물을 것입니다. 그리고 당신이 이에 답하지 못한다면, 계약을 놓치게 될 것입니다.

레벨 3: 런타임 관측 가능성 (Runtime Observability) (2-3년 이내)

에이전트 런타임(Runtime) 내부의 계측(Instrumentation)이 필요한 사항들입니다:

도구 호출당 지연 시간 (Latency per tool call): 추정치가 아닌, 엔드 투 엔드(End-to-end)로 측정됨
오류율 및 재시도 패턴 (Error rates and retry patterns): 이 에이전트가 40%의 확률로 재시도를 하고 있는가?
의사결정 체인 로깅 (Decision chain logging): 왜 Tool B 대신 Tool A를 선택했는가?
리소스 활용도 (Resource utilization): 작업당 메모리, 컴퓨팅, 네트워크

이를 위해서는 SDK 래퍼(Wrapper) 또는 플랫폼 수준의 지원이 필요합니다. Google의 새로운 Gemini Enterprise Agent Platform은 Agent Runtime 모니터링[[4]]을 통해 이 방향으로 나아가고 있으며, OpenTelemetry의 CNCF 졸업은 에이전트 워크플로우를 포함한 분산 트레이싱(Distributed tracing)의 표준으로서의 입지를 확고히 하고 있습니다.

하지만 여기서 핵심적인 통찰은 다음과 같습니다: L3 데이터의 실제 구매자는 IT 부서가 아니라 보험 산업입니다. 에이전트가 새벽 3시에 금융 결정을 내릴 때, 보험 계리사(Actuaries)는 리스크를 산정하기 위해 해당 행동에 대한 독립적인 기록을 필요로 합니다. 보험은 정의상 제3자 데이터(Third-party data)를 필요로 합니다. 피보험자 자신의 보고서만으로는 언더라이팅(Underwriting, 보험 인수)을 할 수 없기 때문입니다. 이것이 바로 중립적인 에이전트 행동 기록 계층(Agent behavior record layer)이 단순히 있으면 좋은 기능(Nice-to-have)이 아닌 이유입니다. 이는 완전히 새로운 보험 시장을 위한 전제 조건입니다.

이미 열리고 있는 것 — 그리고 열리지 않는 것

모든 데이터 계층이 동일한 속도로 개방되지는 않을 것입니다. 시장 역학은 다음과 같습니다:

이미 개방된 것: 계층 1 (Layer 1, 사용 통계) — 미터링 기반 과금(Metered billing)이 이를 요구하기 때문에 이미 진행 중입니다. GitHub이 6월 1일부터 사용량 기반 과금(Usage-based billing)으로 전환한 것이 그 증거입니다. 사용량을 보여주지 않고는 사용량만큼 청구할 수 없습니다.

다음에 개방될 것: 계층 2 (Layer 2, 행동 로그) — 규제(EU AI Act)와 기업 조달(Enterprise procurement) 요구에 의해 추진됩니다. 플랫폼이 개방하기를 _원해서_가 아니라, 구매자가 이를 요구하기 때문입니다. 만약 당신이 Fortune 500 기업에 AI 에이전트를 판매한다면, 그들은 "총 소유 비용(TCO, Total cost of ownership)이 얼마입니까?"라고 물을 것입니다. 그리고 당신이 이에 답하지 못한다면, 계약을 놓치게 될 것입니다.

자발적으로 열리지 않을 것: 계층 3 (Layer 3, 런타임 내부 정보) — 플랫폼은 선택적으로 정보를 공개하려는 강력한 동기를 가지고 있습니다. 그들은 자사의 에이전트가 잘 작동하는 모습은 보여주겠지만, 경쟁사의 에이전트가 나빠 보이는 부분에는 공백을 남겨둘 것입니다. 이를 위해서는 중립적인 제3자가 필요합니다.

핵심 통찰: 계층 2는 플랫폼의 협력이 필요하지 않습니다. 신용 조회와 동일한 모델인 개발자 권한 부여(Developer authorization)가 필요할 뿐입니다. Visa는 은행들이 데이터베이스를 개방하기를 기다리지 않았습니다. 카드 소유자가 조회를 승인했습니다.

플라이휠(Flywheel): 각 단계가 다음 단계를 해제하는 방식

이것은 세 개의 별개 제품이 아닙니다. 하나의 플라이휠입니다:

L1 공개 데이터 → "귀하의 에이전트에 프로필이 있습니다"
    ↓ 선제적 알림 + 무료 상태 보고서
소유자가 프로필을 주장 → 사용 API 권한 부여
...

L1과 L2 사이의 결정적인 누락된 고리는 기술이 아니라 바로 **주의(attention)**입니다. 당사 플랫폼에는 28만 개 이상의 에이전트가 존재하며, 개발자들은 스스로를 찾아다니지 않습니다. 그들에게는 다음과 같은 상황에서 _알림(notified)_을 받는 것이 필요합니다:

에이전트의 활동이 급증하거나 0으로 떨어질 때
에이전트가 새로운 플랫폼에 나타날 때
에이전트의 순위가 하락할 때 — "귀하의 에이전트가 이번 주 해당 카테고리에서 #12에서 #47로 떨어졌습니다" — 손실 회피(loss aversion)는 그 어떤 긍정적인 보고서보다 더 빠르게 행동을 유도하기 때문입니다.
주간 생태계 변화 사항이 편지함에 도착할 때

점수를 받는 것보다 주목받는 것이 더 중요합니다. 하지만 가장 중요한 것은 바로 자신의 서사(narrative)를 통제하는 것입니다. 누군가 귀하의 에이전트를 검색했는데 귀하가 만들지 않은 프로필을 발견한다면, 다른 누군가가 귀하의 이야기를 하고 있는 것입니다. 프로필을 소유(Claiming)하는 것은 단순히 인증을 위한 것이 아닙니다. 그것은 귀하의 에이전트가 존재하는 모든 플랫폼에서 서사에 대한 소유권을 갖는 것에 관한 문제입니다.

이것이 바로 플랫폼 내부 배지(OpenAI의 "Verified Organization" 또는 Google의 개발자 인증과 같은)가 해당 생태계 내부에서만 작동하는 이유이기도 합니다. GPT Store, Coze, Dify에 있는 귀하의 에이전트는 단일한 정체성을 갖지 못합니다. AgentRisk는 그러한 교차 플랫폼(cross-platform) 프로필이 존재하는 유일한 곳입니다 — 28개의 플랫폼, 하나의 통합된 기록, 설계부터 중립성을 유지합니다.

오늘 바로 할 수 있는 일

에이전트를 프로덕션(production) 환경에 배포하고 있다면, 플랫폼 변경 없이 즉시 실행할 수 있는 구체적인 단계는 다음과 같습니다:

1. API 호출 래핑 (Wrap Your API Calls)

관측 가능성(observability)의 가장 단순한 형태 — 단 20줄의 코드:

import time
from datetime import datetime
from collections import defaultdict
...

이것은 20줄짜리 프로토타입(prototype)입니다. AgentRisk에서는 SDK 설치 없이도 플랫폼과 모델 전반에 걸쳐 데이터를 집계하는 프로덕션 버전을 구축하고 있습니다.

이를 통해 에이전트별 비용 귀속(cost attribution)이 가능해집니다. 이는 Uber가 34억 달러를 태웠을 때 가졌던 것보다 더 강력한 기능입니다.

2. 예산 알림 설정 (Set Budget Alerts)

임계값(thresholds)을 정의하고, 임계값에 도달하기 _전(before)_에 알림을 받으세요:

WEEKLY_BUDGET = 500  # USD
ALERT_THRESHOLD = 0.8

...

3. 재시도 폭풍 (Retry Storms) 감지

가장 위험한 비용 패턴은 높은 사용량이 아니라, 바로 낭비되는 사용량입니다:

# 재시도율이 20%를 초과하는 에이전트에 플래그 설정
total_calls = len(monitor.calls)
retries = sum(1 for c in monitor.calls if c.get("is_retry"))
...

Uber의 Claude Code 배포 당시 커밋의 70%가 AI에 의해 생성되었습니다. 하지만 그중 얼마나 많은 양이 재시도(retry)였을까요? 아무도 추적하고 있지 않았기 때문에 아무도 알지 못했습니다.

4. 에이전트 간 측면 비교 (Side-by-Side Comparison)

여러 개의 에이전트를 실행하고 있다면, 스마트폰의 앱들을 비교하듯이 각 에이전트의 비용 프로필을 비교해 보세요:

에이전트        | 월간 비용 | 평균 지연 시간 (Avg Latency) | 재시도율 (Retry Rate)
--------------|-------------|---------------------------|----------
agent-search    | $1,240      | 1.8s                      | 12%
...

agent-coder는 agent-search보다 비용이 3배 더 높고 재시도율은 34%에 달합니다. 이것이 바로 여러분의 "TikTok이 13GB를 잡아먹는" 순간입니다. 이제 어디를 살펴봐야 할지 알게 된 것입니다.

비용 그 이상의 중요성

비용은 측정 가능하고 즉각적이기 때문에 첫 번째 고통 지점(pain point)이 됩니다. 하지만 동일한 관측 가능성 (Observability) 인프라는 다음과 같은 세 가지 목적을 추가로 수행합니다:

Uber의 34억 달러 교훈: 당신의 AI 에이전트가 몰래 현금을 태우고 있지는 않습니까? — 에이전트 컴퓨팅 관측 가능성(Agent

요약

핵심 포인트