토큰 가격은 낮아졌지만, 당신의 청구서는 그렇지 않습니다.

한 AI 컨설턴트의 기업 고객이 한 달 만에 Claude에 실수로 5억 달러를 지출했다고 합니다 (이것이 사실인지 여부는 독자의 몫으로 남겨두겠습니다. 왜냐하면 이런 일이 일어날 가능성이 높기 때문입니다... 역사적 허구라고 부릅시다.) 듣자하니, 그들은 라이선스별 직원 사용 제한(usage limits)을 설정하는 데 실패했고, 직원들이 실행하던 에이전트 워크플로우 (agentic workflows)가 서로 결합되어 청구 금액이 엄청난 숫자에 도달했으며, 컨설턴트는 5월 말 Axios에 이 사실을 알렸습니다. 그리고 이것이

이 기술을 실제로 프로덕션(production) 환경에 배포하고 있는 기업들은 단위 가격이 약 280배 정도 하락했음에도 불구하고, 월간 AI 청구액이 전년 대비 대략 320% 증가하는 것을 지켜보고 있습니다. Uber의 CTO는 지난 4월, 회사가 이미 2026년 Claude Code 예산 전체를 소진했다고 인정(혹은 주장?)했습니다. 업계가 책정하는 가격과 업계가 실제로 구매하는 것 사이에는 구조적 불일치가 존재합니다. 이는 지속될 수 없습니다.

공급업체들도 이를 알고 있으며, 비용 구조에 가장 근접한 이들이 가장 먼저 가격을 재조정하고 있습니다. 6월 첫째 주, 에이전트 기반 코딩(agentic coding) 시장을 점유하고 있는 세 가지 도구는 모두 고정된 좌석당 비용(flat seat) 방식이 실제 추론(inference) 비용을 감당할 수 있다는 척하는 것을 그만두었습니다. GitHub Copilot은 6월 1일에 사용량 기반 과금(usage-based billing) 방식으로 전환하여, 월간 크레딧 할당량을 제공한 후 그 이후에는 토큰을 측정하여 과금하기 시작했습니다. 이에 따라 긴 에이전트 세션을 실행하는 개발자들은 10배에서 50배에 달하는 첫 청구서를 받게 되었습니다. 48시간 이내에 Cursor는 팀 플랜을 별도의 사용량 풀을 가진 티어(tier)로 나누었고, Cognition은 Windsurf를 측정형 Devin으로 재출시했습니다. 서로의 파산을 기꺼이 지켜볼 세 경쟁사가 일주일 만에 동일하게 인기 없는 조치를 취했다는 것은 그 어떤 것보다 확실한 선행 지표입니다. '무제한 이용(all-you-can-eat)' 좌석 방식은 이제 청구서가 날아온 벤처 보조금(venture subsidy)이었으며, 보조금은 그것이 끝나는 순간까지 고객 입장에서 세상에서 가장 비싼 것입니다.

루프의 산술

토큰당 가격 차트가 알려주지 않는 사실은 단일 사용자 요청이 실제로 얼마나 많은 토큰을 생성하는가 하는 점입니다. 2023년에는 애플리케이션 내부의 전형적인 "AI 기능 (AI feature)"이 단 한 번의 모델 호출 (model call)이었습니다. 사용자가 질문을 입력하면 모델이 답변을 반환했고, 청구 비용은 한 번의 왕복 (round trip)이었습니다. 단위 경제성 (unit economics)은 충분히 단순했습니다: 토큰당 가격 $\times$ 응답당 토큰 수 $\times$ 일일 응답 수였습니다.

하지만 2026년의 현대적인 에이전트 워크플로우 (agentic workflow) — 모든 기업용 벤더가 판매하고 모든 포춘 500대 기업이 구매하고 있는 바로 그 방식 — 는 사용자 작업당 모델을 10회에서 20회 사이로 호출합니다. 계획 (planner) 호출, 검색 (retrieval) 호출, 검증 (verifier) 호출, 도구 사용 (tool-use) 호출, 비판 (critique) 호출, 개선 (refinement) 호출, 비판에 기반한 두 번째 검색 호출 가능성, 그리고 최종 답변 형식 지정 (answer-formatting) 호출이 있습니다. 이 각각의 호출은 그것이 대체한 단일 호출보다 저렴합니다. 하지만 동일한 사용자 작업에 대해 이 모든 호출을 곱하면, 원래의 방식보다 더 비싸집니다.

현재 모든 기업용 배포에서 필수적인 RAG 파이프라인 (RAG pipelines)은 상황을 개선하는 것이 아니라 악화시킵니다. 모든 검색 증강 (retrieval-augmented) 호출은 검색된 문서들로 컨텍스트 윈도우 (context window)를 팽창시키며, 이는 모델의 입력 토큰 (input token) 수가 3배에서 5배까지 급증함을 의미합니다. 입력 토큰의 비용은 그 어느 때보다 낮아졌지만, 모든 호출에 밀어 넣는 입력 토큰의 수는 그 어느 때보다 많아졌으며, 이 두 가지 추세는 수렴하고 있지 않습니다. 이들은 발산하고 있으며, 그 발산이 바로 청구서입니다.

모든 사이버 보안 벤더(cybersecurity vendor)와 관측성 플랫폼(observability platform)이 이제 기본 활성화(default-on) 토글과 함께 출시하고 있는 상시 모니터링 에이전트(Always-on monitoring agents)가 세 번째 요인입니다. 프로덕션 데이터 피드(production data feed)를 대상으로 지속적으로 실행되는 모니터링 에이전트는 사용자당 단일 요청을 생성하는 것이 아닙니다. 이는 데이터 포인트(data point)당 지속적인 요청을 생성합니다. 해당 요청의 단위 비용(unit cost)은 미미하지만, 한 달 동안 단위 비용과 요청률(request rate)의 곱은 결코 미미하지 않습니다. 이는 구매자가 예산을 세우지 않은 가장 큰 항목이 됩니다. 이름이 밝혀지지 않은 5억 달러 규모의 고객은 이 세 가지 요인을 모두 쌓아 올리고, 그 결과물에 기본 활성화 토글을 설정한 뒤, 긴 주말을 보내러 집으로 가버렸을 때 발생하는 현상입니다.

컨테이너는 저렴해졌습니다. 하지만 해운업은 그렇지 않았습니다.

여기서 가장 명확한 비유는 해상 컨테이너이며, 제가 이 비유를 사용하는 이유는 그것이 유행이기 때문이 아니라 평행 이론이 정확하기 때문입니다.

1960년대 후반에 본격적인 산업 표준으로 등장한 컨테이너화(Containerization)는 15년 만에 대양을 가로질러 물품 1톤을 이동시키는 비용을 대략 한 자릿수(an order of magnitude)만큼 줄였습니다. 컨테이너 자체는 범용 상품(commodity)이 되었고, 단일 태평양 횡단 운송 가격은 급락했습니다. 측정 가능한 모든 단위에서 화물 이동 비용은 내려갔습니다. 하지만 그 결과로 해운업이라는 카테고리 자체가 저렴해진 것은 아니었습니다. 결과적으로 운송되는 화물의 양이 폭발적으로 증가했는데, 이는 비용 절감이 이전에는 경제성이 없었던 전체 제품 카테고리를 경제적으로 만들었기 때문입니다. 저렴한 전자제품. 패스트 패션(Fast fashion). 장거리 노선의 신선 식품. 적기 생산(Just-in-time) 글로벌 제조. 컨테이너 이전에는 이 중 그 어느 것도 의미 있는 규모로 존재하지 않았습니다. 이제는 그 모든 것이 존재합니다.

눈에 보이는 비용은 하락한 컨테이너 가격입니다. 하지만 눈에 보이지 않는 비용은 저렴한 컨테이너가 가능하게 만든 것들입니다. 즉, 소국(small countries) 규모의 창고 네트워크, 재고를 채워두기 위해 필요한 재고 금융 (inventory-financing) 운영, 마찰을 흡수하는 통관 및 컴플라이언스 (compliance) 인프라, 그리고 지구 어디에서든 6일 이내 배송을 당연하게 여기는 소비자 행동 등이 그것입니다. 컨테이너는 세상의 돈을 아껴준 것이 아닙니다. 그것은 돈의 흐름을 물품의 이동에서 물품의 저장, 금융, 조율(choreographing), 그리고 소비로 옮겨 놓았습니다. 청구서는 늘어났습니다. 컨테이너는 저렴해졌습니다. 두 가지 모두 사실일 수 있습니다.

토큰 (token)은 컨테이너입니다. 모델 호출 (model call)은 상자입니다. 2026년의 프로덕션 AI 배포 (production AI deployment)에서 당신이 실제로 지불하는 것은 상자가 아닙니다. 그것은 창고입니다. 즉, 데이터 플레인 (data plane), 검색 기질 (retrieval substrate), 오케스트레이션 레이어 (orchestration layer), 평가 하네스 (eval harness), 안전 검토 (safety review), 그리고 당신의 모니터링 시스템에 맞서 작동하는 모니터링 시스템이 바로 그것입니다. 토큰은 벤더가 당신에게 견적을 내는 대상입니다. 창고는 당신이 실제로 구축한 것입니다.

아직 당신이 보지 못한 청구서

2026년 엔터프라이즈 AI 배포 (enterprise AI deployment)의 지배적인 비용은 LLM 청구서가 아닙니다. 그것은 LLM에 데이터를 공급하는 데이터 이동 (data movement)입니다. 여기서 모든 RAG 검색 (RAG retrieval)은 어딘가에서 데이터를 가져오고, 모든 에이전트 호출 (agent invocation)은 데이터베이스, 벡터 스토어 (vector store), 캐시된 문서, 도구 호출 (tool call), 또는 상류 시스템 (upstream system)으로부터 컨텍스트를 읽어옵니다. 유용한 답변 하나당 이동하는 바이트 (bytes) 수는 수십 배(orders of magnitude) 증가했습니다. 퍼블릭 클라우드 (public cloud)를 통해 바이트를 이동시키는 가격은 내려가지 않았습니다. 일부 지역과 일부 이그레스 경로 (egress paths)에서는 오히려 상승했습니다.

이곳은 전체 아키텍처(architecture)에 대한 논의가 이루어져야 하는 지점이지만, 실제로는 그렇지 않습니다. 벤더(vendors)들은 토큰당 가격(price-per-token)을 두고 경쟁하고 있는데, 이는 고객이 측정하는 지표가 바로 그것이기 때문입니다. 고객이 토큰당 가격을 측정하는 이유는 벤더가 공표하는 지표가 바로 그것이기 때문입니다. 양측 모두 청구서에서 급격히 하락하는 부분에 대해서는 경쟁하기로 합의하면서, 조용히 증가하고 있는 부분은 무시하고 있습니다. 그 결과, 헤드라인 비용은 연간 10배씩 떨어지지만 실제 비용은 상승하는 시장이 형성되었으며, 그 누구도 이 두 숫자를 같은 슬라이드에 올리려 하지 않습니다.

이 문제를 올바르게 다루는 엔터프라이즈 AI 아키텍처(enterprise AI architecture) 버전이 존재하며, 그것은 데이터가 컴퓨팅(compute)으로 이동하는 대신 컴퓨팅이 데이터로 이동하는 버전입니다. 만약 검색 기질(retrieval substrate)이 모델 옆에 위치한다면, 송출 수수료(egress fees)를 지불하지 않게 됩니다. 만약 에이전트 루프(agent loop)가 관련 컨텍스트(context)의 로컬 캐시(local cache)를 대상으로 실행된다면, 중복되는 검색 왕복(retrieval round-trips) 비용을 지불하지 않게 됩니다. 만약 모니터링 에이전트(monitoring agents)가 모니터링 대상 데이터가 있는 엣지(edge)에서 실행된다면, 해당 데이터를 중앙 추론 클러스터(central inference cluster)로 보냈다가 다시 가져오는 비용을 지불하지 않게 됩니다. 토큰 단위 비용(unit-cost-of-token) 차트는 이 부분을 측정하지 않기 때문에 이에 대해 아무것도 말해주지 않습니다. 하지만 총 청구서(total bill)는 말해줍니다.

Akamai와 Comcast는 지난 3월 이에 대한 벤치마크를 실시했습니다. 이 벤치마크에서는 버스트 트래픽(burst traffic) 상황에서 4개의 NVIDIA RTX PRO 6000 GPU를 사용하는 음성 소형 언어 모델(voice small language model)을 대상으로, 단일 중앙 집중형 클러스터(single centralized cluster)와 4개 사이트에 분산된 AI Grid를 비교했습니다. 분산 배포(distributed deployment) 방식은 기본 상태에서 52.8% 더 저렴했고, 버스트 발생 시에는 76.1% 더 저렴했으며, P99 기준 500ms 미만의 지연 시간(latency)과 피크 시 80.9%의 처리량(throughput) 이득을 보였습니다. 이것이 바로 올바른 것을 측정했을 때의 아키텍처 논의 모습입니다. 이는 토큰당 비교가 아닙니다. 정답을 전달하는 총 비용(total-cost-of-delivering-the-answer)의 비교이며, 여기서 중앙 집중형 모델은 패배합니다.

잘못된 숫자를 보지 마세요

만약 이번 분기에 AI 인프라 계약을 체결할 예정이라면, 토큰당 가격 (per-token price) 최적화를 멈추십시오. 가격은 계속해서 하락할 것이며, 그 하락 속도는 당신이 체결한 어떤 계약도 1년 이내에 무의미하게 만들 정도입니다. 이 가격을 두고 경쟁하는 벤더들은 비용 구조에서 눈에 보이게 저렴한 부분만을 두고 경쟁하고 있으며, 실제 비용 구조의 중심은 다른 곳으로 이동하고 있습니다.

데이터가 어디에 위치하는지, 데이터를 이동하는 데 비용이 얼마나 드는지, 그리고 어떤 호출(call)이 중앙 추론 경로 (central inference path)를 통해 왕복해야 하는지를 기준으로 최적화하십시오. 당신이 아직 보지 못한 청구 항목은 데이터 송신 (egress) 항목, 벡터 저장소 검색 (vector store retrieval) 비용, 그리고 당신이 잠든 사이에도 복리로 쌓이는 모니터링 지출에 있습니다. 모델에 대한 비용은 계산하기 쉬운 부분입니다. 하지만 점점 더, 그것은 실제 청구서의 핵심이 아닙니다.

5억 달러 규모의 고객은 라이선스 제한을 잘못 설정했습니다. 그것은 통제 실패 (control failure)였습니다. 이 통제 실패가 흥미로운 이유는, 통제에 실패한 대상이 단 한 달 만에 뉴스에 나올 정도로 커졌기 때문입니다. 2년 전이었다면 동일한 통제 실패가 발생했더라도 5자리 수(만 단위)의 청구서가 나왔을 것이고, CFO는 다음 분기 검토 때 이를 인지했을 것이며, 아무도 이에 대해 글을 쓰지 않았을 것입니다. 통제 수단이 개선되는 속도보다 통제 실패로 인한 비용이 더 빠르게 증가하고 있습니다. 그 격차야말로 아무도 차트에 그려 넣지 않은 비용 곡선의 핵심입니다.

토큰 가격은 낮아졌습니다. 하지만 당신의 청구서는 그렇지 않았습니다. 이 두 가지 사실은 동시에 성립하며, 이 둘 사이의 격차가 향후 10년 동안 기업용 AI 아키텍처 (enterprise AI architecture)의 향방을 결정하게 될 것입니다.

지능형 데이터 파이프라인 (intelligent data pipelines)이 어떻게 AI 비용을 줄일 수 있는지 알고 싶으신가요? Expanso를 확인해 보세요. 아니면 하지 않으셔도 됩니다. 제가 감히 당신에게 무엇을 하라고 말할 처지는 아니니까요."

토큰 가격은 낮아졌지만, 당신의 청구서는 그렇지 않습니다.

요약

핵심 포인트

루프의 산술

컨테이너는 저렴해졌습니다. 하지만 해운업은 그렇지 않았습니다.

아직 당신이 보지 못한 청구서

잘못된 숫자를 보지 마세요

댓글