AI의 7,000억 달러 보조금 시계가 움직이고 있다

모든 AI 팀 리더들이 2026년 예산을 재검토해야 할 숫자가 여기 있습니다. 토큰 (token) 가격은 2년 동안 280배 하락했습니다. 같은 기간 동안 기업의 전체 AI 지출은 320% 증가했습니다.

📖 차트와 삽입된 출처가 포함된 전체 버전을 ComputeLeap에서 읽어보세요 →

이는 오타가 아닙니다. 이것은 제번스의 역설 (Jevons paradox)이 실체화된 것입니다. 자원이 저렴해지면 사람들이 훨씬 더 많이 사용하게 되어 전체 소비가 폭발적으로 증가하는 현상입니다. 그리고 지금 AI 산업은 이 역설의 매우 극단적인 버전 속에 살고 있으며, 심지어 이러한 시스템을 구축하는 사람들조차 경고를 울리고 있습니다.

"우리 팀의 경우, 컴퓨팅 (compute) 비용은 직원의 비용을 훨씬 상회합니다."라고 Nvidia의 응용 딥러닝 부사장인 Bryan Catanzaro는 Fortune에 말했습니다. 다시 한번 읽어보십시오. 곡괭이를 파는 회사의 딥러닝 부사장이 곡괭이 값이 광부보다 더 비싸다고 말하고 있습니다.

한편, GitHub에서 가장 뜨거운 오픈 소스 프로젝트 — 단 하루 만에 2,503개의 스타를 획득한 — 는 12개월 전이라면 터무니없게 들렸을 제안을 하고 있습니다: LLM (Large Language Model) 사용을 줄여라.

무언가 변했습니다. 분위기에 휩쓸려 돈을 쓰던 (vibe-spend) 시대가 끝나가고 있습니다. 대시보드 (dashboard)의 시대가 시작되고 있습니다.

모델을 무너뜨린 숫자

AI의 주요 경제 지표는 단위당 기준으로 볼 때 장관입니다. 2024년 초에 100만 토큰당 30달러가 들었던 작업이 현재는 약 0.10달러가 듭니다. GPT-4o의 입력 가격은 절반으로 줄었습니다. o4 Mini와 같은 최신 모델은 100만 토큰당 0.55달러의 입력을 제공합니다. 가격 곡선은 스키 슬로프처럼 가파릅니다.

하지만 토큰당 가격에서 기업의 총 지출 규모로 시야를 넓히면 상황은 반전됩니다. 평균적인 기업의 AI 예산은 2024년 연간 120만 달러에서 2026년 700만 달러로 성장했습니다. 추론 (Inference) 비용은 2023년 40%에서 현재 기업 AI 예산의 85%를 차지할 정도로 급증했습니다. 일부 Fortune 500 기업들은 월간 AI 추론 비용이 수천만 달러에 달한다고 보고하고 있습니다.

AI Inference Cost Crisis 2026 — analysis showing enterprise AI bills exploding despite falling token prices

무슨 일이 일어난 걸까요? 세 가지 구조적 변화가 동시에 발생했습니다.

첫째, **에이전틱 워크플로우 (agentic workflows)**입니다. 1년 전 전형적인 AI 상호작용은 대략 2,000개의 토큰을 소비했습니다. 오늘날의 에이전틱 워크플로우는 작업당 50,000개에서 500,000개의 토큰을 소비합니다. Gartner의 2026년 3월 분석에 따르면, 이는 표준 챗봇 질의 대비 5~30배의 승수를 가집니다.

둘째, RAG 인플레이션입니다. 검색 증강 생성 (Retrieval-augmented generation, RAG)은 추론 호출당 컨텍스트 윈도우 (context windows)를 3~5배 팽창시키며, 이렇게 확장된 컨텍스트는 다단계 에이전트 루프의 매 턴마다 다시 전송됩니다.

셋째, **항시 가동되는 에이전트 (always-on agents)**입니다. 요청 시에만 활성화되는 챗봇과 달리, 모니터링 에이전트와 코딩 어시스턴트는 24시간 내내 컴퓨팅 자원을 소비합니다. Uber의 CTO가 회사의 2026년 AI 코딩 예산 전체를 4개월 만에 소진했다고 밝혔을 때, 이는 토큰 가격이 비싸졌기 때문이 아니라 개발자들이 토큰을 항상 사용했기 때문이었습니다.

⚠️ 한 문장으로 요약한 역설: 소비량이 100배 증가하고 가격이 280배 하락하면 청구 금액이 줄어들 것이라고 가정할 수 있습니다. 하지만 그렇지 않습니다. 워크플로우 단위에서 볼 때, 볼륨의 성장이 가격 압축 속도를 앞지르기 때문입니다. 토큰당 가격은 떨어졌지만, 작업당 토큰 수는 훨씬 더 빠르게 폭발했습니다.

headroom: 1순위 프로젝트의 제언 'LLM을 덜 사용하라'

이러한 비용 위기 속에 Netflix 엔지니어인 Tejas Chopra가 구축한 컨텍스트 압축 레이어(context compression layer)인 headroom이 등장했습니다. 2026년 6월 4일에 출시된 이 프로젝트는 출시 첫날 14,600개의 스타(stars)를 기록했으며, 24시간 동안 2,503개의 스타를 획득했습니다. 이는 일일 성장 속도(daily velocity) 면에서 GitHub의 모든 프로젝트 중 가장 빠르게 성장하는 프로젝트가 되었습니다.

headroom GitHub repository — 14.6k stars, context compression for AI agents, 60-95% fewer tokens

이 프로젝트의 제안은 거의 코믹할 정도로 직설적입니다. AI 에이전트가 읽는 모든 것—도구 출력(tool outputs), 로그(logs), RAG 청크(chunks), 파일, 대화 기록—이 LLM(대규모 언어 모델)에 도달하기 전에 압축하라는 것입니다. 주장하는 결과는 다음과 같습니다. 토큰 수는 60~95% 감소하지만, 답변은 동일합니다.

headroom은 투명한 프록시(transparent proxy, 코드 변경 불필요), Python 함수(compress()), 또는 LangChain, Agno, Strands, LiteLLM, MCP를 위한 프레임워크 통합 방식으로 제공됩니다. 여기에는 6가지 압축 알고리즘이 포함되어 있습니다:

SmartCrusher — 딕셔너리 배열 및 중첩된 객체를 위한 범용 JSON 압축
CodeCompressor — Python, JS, Go, Rust, Java, C++를 위한 AST(추상 구문 트리) 인식 압축
Kompress-base — 에이전트 추적(agentic traces) 데이터에 특화되어 학습된 HuggingFace 모델
CacheAligner — 프롬프트 접두사(prompt prefixes)를 안정화하여 Anthropic 및 OpenAI의 KV 캐시(KV caches)가 실제로 작동하도록 지원
IntelligentContext — 학습된 중요도 가중치를 사용하여 점수 기반으로 컨텍스트를 맞춤
CCR — LLM이 필요할 때 원본을 검색할 수 있는 가역적 압축(reversible compression)

벤치마크 결과에 따르면 정확도는 보존되는 것으로 나타났습니다. GSM8K 수학 점수는 압축 적용 후에도 0.870을 유지했으며, TruthfulQA 점수는 0.530에서 0.560으로 오히려 약간 향상되었습니다. 실제 워크로드에서는 SRE 장애 디버깅(incident debugging) 시 토큰 수가 65,694개에서 5,118개로(92% 감소), 코드 검색(code search) 시 17,765개에서 1,408개로(92% 감소) 줄어드는 것을 보여주었습니다.

초기 도입자들은 출시 이후 총 70만 달러의 비용 절감과 2,000억 개의 토큰 확보 효과를 보고하고 있습니다.

ℹ️ 관련 읽을거리: 이미 CLI 수준에서 토큰 비용을 최적화하고 있다면, rtk를 사용하여 Claude Code 비용을 60~90% 절감하는 가이드를 확인해 보세요.

아무도 예산에 반영하지 않은 에이전트 승수 (The Agentic Multiplier)

대부분의 AI 예산을 파괴하는 계산법은 다음과 같습니다. 10회 턴(turn)의 에이전트 세션은 단일 호출 비용의 10배가 들지 않습니다. 그 비용은 50배에 가깝습니다.

그 이유는 누적된 컨텍스트 재전송 (cumulative context re-sending) 때문입니다. 에이전트 루프 (agentic loop)의 각 턴은 전체 대화 기록을 모델에 다시 보냅니다. 10번째 턴에 도달하면, 당신은 동일한 토큰에 대해 아홉 번의 비용을 지불하고 있는 셈입니다.

그리고 이것은 눈에 보이는 비용일 뿐입니다. 기업용 AI 배포에 대한 OpsLyft의 분석에 따르면, 검색 증강 (retrieval augmentation), 임베딩 생성 (embedding generation), 컨텍스트 윈도우 관리 (context window management), 재시도 로직 (retry logic)과 같은 숨겨진 비용이 원시 추론 (raw inference) 청구 금액에 통상 40~60%를 추가로 더합니다.

7,000억 달러의 자본 지출 (Capex) 문제

미국의 5대 클라우드 및 AI 기업들은 2026년 합산 자본 지출 (capital expenditure)을 6,350억~6,900억 달러로 가이드하고 있으며, 이는 2024년 수준의 두 배가 넘는 수치입니다. ARK Invest는 AI 인프라 지출이 2030년까지 1.4조 달러에 달할 것이라고 전망합니다.

하지만 자본 지출 (capex)의 성장은 클라우드 매출 성장 속도를 실질적으로 앞지르고 있습니다. Amazon의 잉여 현금 흐름 (free cash flow)은 2026년에 마이너스로 전환될 것으로 예상됩니다. Morgan Stanley는 하이퍼스케일러 (hyperscaler)의 부채 발행액이 4,000억 달러를 초과할 것으로 예상합니다.

Substack의 Coastal Journal은 2000~2002년의

OpenAI는 2025년에 37억 달러의 매출을 기록했으나 약 50억 달러의 손실을 입은 것으로 추정됩니다. 즉, 1달러를 벌 때마다 1.35달러를 지출했습니다. 현재의 API 가격 책정은 추론 (Inference)에 실제로 드는 비용이 아니라, 벤처 캐피털 (VC)이 용인할 수 있는 수준을 반영하고 있습니다.

우리는 이미 초기 전조를 목격했습니다:

Microsoft는 광범위한 도입을 권장한 지 6개월 만에 Claude Code 라이선스 대부분을 취소했습니다
Uber는 2026년 AI 코딩 예산 전체를 4개월 만에 소진했습니다
Google은 무제한 정액제 AI 가격 책정에서 사용량 기반의 AI 크레딧 (AI Credits) 방식으로 전환했습니다
Notion은 임베디드 AI 비용으로 인해 직접적으로 발생한 10%포인트의 매출 총이익률 (Gross Margin) 하락을 공개했습니다

대시보드 시대의 시작

새롭게 부상하는 규율은 "토큰 거버넌스 (Token Governance)"라고 불립니다. 이는 FinOps가 클라우드 지출에 도입했던 것과 동일한 제도적 엄격함을 가지고 추론 (Inference) 비용을 모니터링하고 관리하는 것을 의미합니다. 실질적인 도구 모음은 다음과 같습니다:

모델 라우팅 (Model routing): 추론 지출을 60~80% 감소시킵니다.
시맨틱 캐싱 (Semantic caching): API 호출을 30~50% 절감합니다.
컨텍스트 압축 (Context compression): (headroom, rtk)을 통해 중복된 토큰을 제거합니다.
온프레미스 추론 (On-premise inference): 대규모 환경에서 70~90%의 비용 절감을 제공합니다.

Goldman Sachs는 2030년까지 토큰 소비량이 24배 급증할 것으로 전망합니다. 비용 최적화는 있으면 좋은 기능 (Nice-to-have)이 아닙니다. 이는 생존하는 AI 배포와 취소되는 AI 배포를 가르는 차이점입니다.

보조금 시계가 움직이고 있습니다. '분위기 중심의 지출 (Vibe-spend)' 시대는 도입을 장려했습니다. '대시보드 시대'는 효율성을 보상합니다. 이제 대시보드를 구축하기 시작하십시오.

원문은 ComputeLeap에 게시되었습니다.