단가는 떨어지는데 왜 비용은 올라갈까? AI 플랫폼 소유자를 위한 토크노믹스 (Tokenomics)

"모델 단가는 계속 떨어지는데, 우리의 월간 AI 비용은 계속 올라갑니다." 만약 당신이 개인적으로 AI를 사용한다면, 구독료와 종량제 요금이 야금야금 올라가는 것을 느낄 수 있습니다. 기업 내부에서 AI 사용량을 관리하는 입장이라면 그 격차는 더욱 두드러집니다.

해외에서는 이러한 현상에 이름을 붙이기 시작했습니다. 바로 **토크노믹스 (Tokenomics)**입니다. 2026년 6월 3일, Linux Foundation는 AI 비용 관리를 위한 개방형 표준을 전담하는 **토크노믹스 재단 (Tokenomics Foundation)**을 설립하겠다는 의사를 발표했습니다. Google, Microsoft, Oracle, JPMorganChase 등 제공자와 대규모 구매자 모두가 참여하고 있습니다.

https://www.linuxfoundation.org/press/linux-foundation-announces-the-intent-to-launch-the-tokenomics-foundation-to-establish-open-standards-for-ai-cost-management

이 글은 단어 자체를 설명하는 글이 아닙니다. 이 용어를 당신의 어휘 목록에 넣었을 때, 기업 내부의 생성형 AI 사용량을 관리하는 사람들 — 즉, 플랫폼 소유자, FinOps 실무자, 비용을 주시하는 엔지니어링 리더들 — 에게 어떤 변화가 생기는지에 대한 기록입니다.

토크노믹스가 제공하는 것은 또 다른 절약 기술이 아닙니다. 그것은 AI 비용을 읽는 측정 단위와 관점을 변화시킵니다.

왜 토크노믹스인가, 왜 지금인가

토크노믹스는 클라우드 FinOps의 계보를 잇고 있습니다. FinOps Foundation은 이제 토크노믹스를 FinOps for AI 내의 "AI 가치 (AI Value)" 차원으로 분류합니다. 클라우드 FinOps가 가치 대비 가변적인 인프라 비용(컴퓨팅, 스토리지, 네트워킹)을 추적했다면, 토크노믹스는 지능(intelligence) 그 자체의 가변 비용을 추적합니다. 이는 대체재가 아니라, 그 위에 확률적이고 비결정론적인(non-deterministic) 가변 비용 계층을 추가하는 것입니다.

여기서 말하는 토큰(Tokens)은 모든 API 가격표와 사용량 대시보드에서 보는 것, 즉 언어 모델이 읽고 쓰는 가장 작은 단위이자 컴퓨팅의 단위입니다. '토크노믹스(tokenomics)'라는 단어는 암호화폐(crypto) 세계에도 존재하지만, 그곳에서는 블록체인 상에서의 발행(issuance), 분배(distribution), 그리고 인센티브에 관한 것입니다—소유권의 단위로서의 토큰을 의미합니다. 같은 단어지만 다른 경제학입니다.

[https://www.finops.org/insights/token-economics-the-atomic-unit-of-ai-value/]

이 용어는 2026년 봄부터 주목받기 시작했습니다. 생성형 AI(Generative AI)와 에이전트(agents)가 파일럿 단계에서 프로덕션 단계로 이동하면서, 토큰은 많은 기술 예산 항목 중 가장 크고 빠르게 성장하는 부분이 되었습니다. 토큰당 가격은 하락했지만, 사용량 볼륨은 훨씬 더 빠르게 증가했고, 청구서는 이해하기 어려워졌습니다. Foundation의 출범이 바로 산업계의 대응입니다: 과거 클라우드 비용이 정렬되었던 것처럼, 토큰에 대한 공통된 척도를 마련하는 장(venue)인 것입니다.

후속 조치로, 매년 열리는 FinOps X 컨퍼런스는 2027년부터 Tokenomicon으로 이름이 바뀔 예정입니다. 이 단어는 자체적인 제도적 형태를 갖추고 있습니다.

여기서부터 플랫폼 소유자가 AI 비용을 바라보는 방식에 네 가지 변화가 생깁니다.

변화 1: 단위 가격이 아닌 소비 추이에 따른 예산 책정

가장 먼저 바뀌어야 할 것은 예산을 어디에 근거로 삼느냐입니다. '단위 가격이 계속 하락할 것'이라는 안도감에서 벗어나 **총 소비의 추이(trajectory of total consumption)**를 관찰하기 시작해야 합니다.

범용 모델(general-purpose models)의 백만 토큰당 가격은 2023년부터 2025년까지 급격히 하락했습니다. 최근에는 정체기에 접어들었으며, 최고급 및 추론 모델(top-tier and reasoning models)의 경우 오히려 상승했습니다. 그럼에도 불구하고 기업 지출은 계속 증가하고 있습니다. 그 이유는 수요 탄력성(demand elasticity) 때문입니다: 가격이 떨어지면 조직들은 모달리티를 확장(텍스트 → 이미지 → 비디오), 에이전트 자율성을 높이고, 추론 사슬을 길게 만듭니다. 볼륨의 성장이 가격 하락 속도보다 빠릅니다.

이러한 규모는 기업들이 공개적으로 발표하는 수치에서 확인할 수 있습니다. Google I/O 2026에서 Google은 자사의 AI 제품 전반에 걸쳐 월간 32경(quadrillion) 토큰을 처리한다고 발표했으며, 이는 전년도의 4.8경 토큰보다 약 7배 증가한 수치입니다. AT&T는 오케스트레이션(orchestration)을 멀티 에이전트(multi-agent) 설정으로 재구조화한 후, 내부 생성형 AI (GenAI) 플랫폼인 "Ask AT&T"의 규모를 일일 약 80억 토큰에서 약 270억 토큰으로 확장했다고 보고했습니다. 이는 비용을 약 90% 낮추면서도 볼륨은 3배로 늘린 결과입니다. 국제에너지기구(IEA)는 AI 관련 데이터 센터의 전력 수요가 2025년 한 해에만 약 50% 성장했다고 언급했으며(전체 전력 수요 성장률 약 3% 대비), 이러한 격차의 원인을 AI 사용량의 급증(주요 모델 제공업체의 월간 활성 사용자 수 약 3배, 매출 약 5배 증가)으로 돌렸습니다.

핵심은 다음과 같습니다: 사용자에게 보이는 활동과 소비량은 선형적으로 비례하지 않습니다. RAG 파이프라인(RAG pipeline)을 트리거하고, 추론 모델(reasoning model)을 호출하며, 여러 도구 호출(tool calls)을 수행하는 단일 쿼리는 소형 모델에 직접 프롬프트를 입력하는 것보다 수십에서 수백 배 더 많은 토큰을 소비할 수 있습니다. 에이전트 간 통신(Agent-to-agent communication) 그 자체도 비용입니다. 연구 커뮤니티는 이러한 오버헤드(overhead)를 **"통신세 (communication tax)"**라고 부르기 시작했습니다.

https://openreview.net/forum?id=0iLbiYYIpC

소비가 어디에서 누적되는지 분석해 보면, 일반적으로 하나의 요청은 다섯 가지 요소에 걸쳐 쌓이게 됩니다:

[

]

이 요소들은 단순히 더해지는 것이 아니라 곱해지기 때문에, 표면적인 활동만으로는 전체 규모를 파악하기 어렵습니다.

플랫폼 소유자에게 필요한 조치는 명확합니다. 지난 분기의 실제 지출과 가격 추세선을 바탕으로 예산을 책정하는 것을 중단하십시오. 유스케이스(use case)가 확장되면 소비량이 급증할 것이라고 가정하고, 궤적(trajectory) 그 자체를 대시보드에 올려두어야 합니다. 이제 예산 논의의 주제는 단가가 아니라 총 소비량입니다.

전환 2: 토큰을 보이지 않는 비용 항목으로 취급하라

다음 변화는 토큰을 숨겨진 비용 항목 (hidden cost category)으로 간주하고 의도적으로 관찰하기 시작하는 것입니다.

클라우드 인스턴스 (Cloud instances)는 크기를 조정할 수 있습니다. 스토리지 (Storage)는 감사가 가능합니다. 하지만 토큰은 그러한 촉각적인 피드백이 부족합니다. 토큰은 모든 에이전트 루프 (agent loop), 모든 검색 호출 (retrieval call), 모든 추론 단계 (reasoning step)를 통해 조용히 흐르며, 아무도 예산에 편성하지 않은 비용으로 쌓여갑니다. 이것이 바로 토크노믹스 (Tokenomics) 논의가 계속해서 지적하는 속성입니다.

이러한 비가시성을 증폭시키는 것은 **SaaS 구독 내부에 숨겨진 종량제 과금 (metered billing)**입니다. 개발 도구나 비즈니스 앱에 대한 고정 월간 구독처럼 보이는 것이 실제로는 작동을 기다리는 토큰 미터기입니다. AI 도구를 도입하면 사용자 수 (seat count)로는 설명할 수 없는 청구서를 받게 될 수 있습니다. 다음 사례들은 가설이 아닙니다:

Cursor는 2025년 6월에 사용량 기반 요금제 (usage-based pricing)로 전환했습니다. 긴 컨텍스트 (long-context) 에이전트 사용으로 인해 일부 사용자들의 실질 지출은 수십 배로 급증했습니다. 7월 4일, CEO는 공개 사과문을 발표하고 환불을 제안해야 했습니다.

https://cursor.com/blog/june-2025-pricing

Kiro는 스펙 (spec) 요청과 바이브 (vibe) 요청을 5:1 비율로 과금하는 가격 모델로 출시되어 즉각적인 비판을 받았으며, 회사는 요청이 과다 소비되게 만든 버그를 공식적으로 인정했습니다.

https://kiro.dev/blog/important-pricing-updates/

공통된 패턴은 다음과 같습니다: 구독 가격은 더 이상 예산을 나타내지 않습니다. 사용자 수 요금은 최저 기준일 뿐입니다. 실제로 지불하는 금액은 사용자 수가 아니라 사용량에 의해 결정됩니다.

플랫폼 소유자가 가장 먼저 해야 할 일은 최적화 기술을 찾기 전에 가시성 (visibility)을 확보하는 것입니다. 모델별, 제품별, 팀별, 환경별로 누가 얼마나 소비하고 있는지 세분화할 수 있는 상태를 구축하십시오. SaaS 내부에 숨겨진 토큰도 드러내야 합니다. 이러한 토대가 없다면, 최적화에 대한 논의는 근거를 가질 수 없습니다.

전환 3: 규율이 아닌 설계를 통해 감소를 해결하라

토큰을 줄이는 것은 절제의 문제가 아니라 설계의 문제입니다. 그리고 공급 측면에서 활용할 수 있는 레버리지(levers)가 등장했습니다.

1. 모델 라우팅 (Model routing). 모든 질의를 최고 등급 모델에 보내는 대신, 여전히 답변할 수 있는 가장 저렴한 모델로 경로를 지정합니다. 학술적 접근 방식인 FrugalGPT는 작은 모델부터 먼저 시도하고 필요할 때만 단계적으로 상향 조정하며, GPT-4 대비 최대 98%의 비용 절감을 보고했습니다. RouteLLM (UC Berkeley)은 대화 품질을 유지하면서 최대 85%의 비용 절감을 보고합니다. Amazon Bedrock은 이를 관리형 서비스(지능형 프롬프트 라우팅, intelligent prompt routing)로 제공하며 공식적으로 최대 30%의 비용 절감을 광고하고 있습니다. 이제 라우팅은 연구 단계에만 머무르지 않고, 연구와 관리형 서비스를 통해 실질적인 선택지가 되었습니다.

[https://arxiv.org/abs/2305.05176]

[https://arxiv.org/abs/2406.18665]

[https://aws.amazon.com/bedrock/intelligent-prompt-routing/]

2. 코드로서의 도구 호출 (Tool calls as code). 에이전트에게 일련의 도구 정의 목록을 제공하고, 이 정의들이 매 턴 컨텍스트(context)에 포함됩니다. Cloudflare의

3. 컨텍스트 압축 (Context compression). RAG (Retrieval-Augmented Generation) 파이프라인에서는 검색된 텍스트 중 아주 적은 부분만이 답변에 기여하며, 나머지는 토큰을 낭비하는 노이즈입니다. 이를 가지치기(prune)하면 LLM이 보는 토큰 양을 줄일 수 있습니다. 벡터 데이터베이스 벤더인 Zilliz는 관련성이 낮은 문장을 제거하는 문장 단위 관련성 필터링 (sentence-level relevance filtering)을 통해 70–80%의 토큰 감소를 기록했다고 보고했습니다.

https://milvus.io/blog/semantic-highlighting-model-for-rag-context-pruning-and-token-saving.md

4. 데이터 형식 선택 (Data format choice). LLM에 직접 전달하는 직렬화 형식 (serialization format)은 토큰 양에 직접적인 영향을 미칩니다. Microsoft의 데이터 사이언스 엔지니어링 블로그에 따르면, 동일한 결과에 대해 함수 호출 기반의 구조화된 출력 (function-calling-based structured output)이 자유 형식의 JSON보다 토큰 효율성이 더 높습니다. 표 형식의 데이터의 경우, CSV/TSV 또는 TOON과 같은 최신 LLM 지향적 형식을 사용하면 JSON보다 30–60% 적은 토큰을 사용할 수 있습니다. 데이터 형식은 기능적인 결정인 동시에 비용적인 결정이기도 합니다.

https://medium.com/data-science-at-microsoft/token-efficiency-with-structured-output-from-language-models-be2e51d3d9d5

보고된 절감액과 도입 난이도(난이도는 대략적인 지표임)를 기준으로 정리하면 다음과 같습니다:

레버 (Lever)	보고된 감소율	도입 난이도
데이터 형식 선택	JSON 대비 30–60%	낮음
...

플랫폼 소유자에게 주는 교훈은 절감 기회는 운영(operations)이 아닌 설계(design)에 존재한다는 점을 인식하는 것입니다. 이 중 대부분은 조직적 정책으로 설정할 수 있습니다. 기본 출력 형식을 선택하고, 라우팅(routing)을 설치하며, 도구가 노출되는 방식을 결정하는 식입니다. 팀 수준에서 "더 열심히 노력"하는 것이 아니라, 플랫폼 수준에서 "표준을 결정"해야 합니다. 네 가지 방법 중 기본 출력 형식을 선택하는 것이 아마도 마찰이 가장 적은 시작점이 될 것입니다.

전환 4: 양(volume)이 아닌 결과(outcome)로 측정하라

마지막 변화는 측정 대상에 관한 것입니다. 단순 소비량에서 **결과당 비용 (cost per outcome)**으로 전환하십시오.

토큰을 마치 균일한 것처럼 계산하는 것은 실제 중요한 무언가를 놓치는 것입니다. 품질 부족으로 인한 재시도 (retry)에 소비된 토큰과, 단 한 번의 시도(first-shot)로 사용 가능한 응답을 생성하는 데 사용된 토큰은 동일한 비용이 들지만 가치는 다릅니다. 에이전트 (agent)가 제자리를 맴돌며 소모하는 토큰은 토큰처럼 보이지만 결과로 이어지지 않습니다. LLM 추론 (inference) 연구에서는 이를 **굿풋 (goodput)**이라고 부릅니다. 이는 귀하의 SLO (서비스 수준 목표: 지연 시간, 품질 목표)를 충족하는 처리량 (throughput)을 의미합니다. SemiAnalysis의 InferenceX와 같은 벤치마크 (benchmark)들도 이러한 관점을 채택했습니다. 기업이 실제로 구매하는 것은 가공되지 않은 토큰의 양이 아니라, 그중 사용 가능한 출력 (usable-output) 부분입니다.

https://bentoml.com/llm/inference-optimization/llm-inference-metrics

https://inferencex.semianalysis.com/

단순히 양(volume)만을 쫓을 때 비용 판단은 어긋나게 됩니다. 여러분이 주시해야 할 것은 사용 가능한 결과를 만들어낸 토큰의 비율 (재시도 및 품질 미달 이후의 수율 (yield))과 **추론당 / 워크플로당 / 결과당 비용 (cost per inference / per workflow / per outcome)**입니다.

단가는 떨어지는데 왜 비용은 올라갈까? AI 플랫폼 소유자를 위한 토크노믹스 (Tokenomics)

요약

핵심 포인트

왜 토크노믹스인가, 왜 지금인가

변화 1: 단위 가격이 아닌 소비 추이에 따른 예산 책정

전환 2: 토큰을 보이지 않는 비용 항목으로 취급하라

전환 3: 규율이 아닌 설계를 통해 감소를 해결하라

전환 3: 규율이 아닌 설계를 통해 감소를 해결하라

전환 4: 양(volume)이 아닌 결과(outcome)로 측정하라

댓글