토큰은 실체가 아니다

최근 "토큰 경제 (token economy)"가 뜨거운 화두입니다. AI의 모든 비즈니스 모델은 결국 하나의 회계 단위인 토큰 (token)으로 수렴할 것입니다. 저도 그 논제에 동의합니다. 하지만 한 가지 전제가 계속해서 간과되고 있습니다. 바로 토큰은 표준화된 상품이 아니라는 점입니다.

물에는 표준 단위가 있습니다. 전기에도 표준 단위가 있습니다. 돈은 당연하죠. 하지만 토큰은 그렇지 않습니다. 토큰은 가솔린에 더 가깝습니다. 92, 95, 98 옥탄가는 서로 다른 연료이며, 가격도 다르고, 엔진도 다릅니다. 이를 리터 단위로 모두 더해 하나의 숫자로 보고하는 것은 아무런 의미가 없습니다.

오늘날 AI 분야의 대부분의 모순은 바로 이 지점에서 발생합니다.

I. 지능에는 계층이 있다

대략 네 가지 계층이 존재합니다.

최상위 계층 (Top tier). 해외에서는 OpenAI GPT-5.5, Anthropic Claude Opus 4.7이 있습니다. 중국에서는 Zhipu GLM-5.1, Moonshot Kimi K2.6, DeepSeek V4-Pro가 있습니다. Xiaomi MiMo-V2.5-Pro는 다소 논란의 여지가 있지만, 사용량과 데이터가 상승하고 있으므로 포함하겠습니다. 이들은 수천억 개에서 1조 개 이상의 파라미터 (parameters) 범위를 가집니다. 수요는 거의 무제한이며, 지불 의사는 매우 강력합니다. 가격이 오르고, 할당량이 조여지고, 다시 가격이 오르지만, 사용자들은 계속해서 몰려듭니다. Zhipu의 2025년 연례 보고서에 따르면 GLM Coding Plan의 토큰 호출 횟수는 6개월 만에 15배 증가했으며, 유료 개발자는 24만 명을 넘어섰습니다. 이것이 바로 최상위 토큰의 실제 수요 곡선입니다.

중위 계층 (Mid-tier). 이곳은 어정쩡한 간극이 존재하는 구간입니다. MiniMax M2.7, DeepSeek V4-Flash, Xiaomi MiMo-V2.5 표준형 등이 여기에 해당합니다. 적당한 크기에 가격은 한 자릿수(order of magnitude) 정도 저렴하며, 이론적으로는 최고의 가치를 제공합니다. 하지만 이곳에서 진지하게 서비스를 구축하는 곳은 거의 없습니다. 그 이유는 나중에 설명하겠습니다.

중하위 계층 (Low-mid). 대부분 오픈 소스 (open source)입니다. Alibaba Qwen 3.6이 주도하고 있으며, 35B-A3B (MoE)와 27B 밀집 (dense) 버전이 모두 공개되어 있습니다. Google Gemma 4 역시 E2B에서 31B까지 이 계층에 속합니다.

온디바이스 (On-device). 스마트폰이나 소비자용 GPU에 들어갈 수 있는 수십억 개, 혹은 그 미만의 파라미터를 가집니다.

첫 번째 불균형은 바로 여기서 나타납니다. 최상위 계층은 치열한 혈투가 벌어지고 있습니다. 중위 계층은 비어 있습니다. 중하위 계층과 온디바이스 계층은 소란스럽지만 명확한 시나리오가 부족합니다.

II. 속도는 또 다른 차원이다

계층은 토큰 이야기의 절반에 불과합니다.

나머지 절반은 속도입니다. 30 TPS의 GPT-5.5와 200 TPS의 GPT-5.5는 완전히 다른 경험입니다.

자주 인용되는 벤치마크인 Artificial Analysis의 2026년 수치는 다음과 같습니다:

계층 (Tier)	모델 (Model)	출력 TPS (Output TPS)
플래그십 표준 (Flagship Standard)	GPT-5.5 (high)	~68
...

저는 이전에 5배 더 빠른 모델은 더 이상 같은 모델이 아니다 (A Model 5× Faster Is No Longer the Same Model)라는 글을 쓴 적이 있습니다. 그 논지는 이렇습니다. 5배의 속도 향상은 말 그대로 이전에 존재하지 않았던 제품 형태를 가능하게 합니다. 이것은 단순히 조금 더 빨라진 것이 아닙니다. 그것은 다른 종(species)입니다.

시장은 이미 이를 가격에 반영하고 있습니다. Anthropic Opus Fast: 2.5배 속도, 6배 가격. OpenAI Priority Tier: 2.5배 가격. 이 비율들을 보십시오. 가격이 속도보다 더 빠르게 상승합니다. 이는 탐욕이 아닙니다. 가격 신호(pricing signal)입니다. 속도를 위해 몇 배의 비용을 지불할 용의가 있는 실제 집단이 존재한다는 뜻입니다.

지능 계층(Intelligence tier) × 속도 계층(speed tier). 이 둘을 쌓으면 매트릭스(matrix)가 됩니다. 각 셀(cell)에 담긴 토큰은 서로 다른 제품이 됩니다.

III. 두 가지 수요 경로, 지불 의사의 극명한 차이

누가 최상위 계층의 토큰을 소모하고 있을까요? 두 가지 주요 경로가 있습니다.

첫째: 코딩 에이전트(coding agents). 전 세계적으로 가장 빠르게 성장하며 가장 많은 토큰을 소모하는 카테고리입니다. 표면적으로는 문제를 해결하기 위해 코드를 작성하는 코딩 에이전트입니다. 실제로 사람들은 모든 것에 이를 사용합니다. 단지 그 작업이 "코드를 작성하는 것"을 통해 완료될 뿐입니다.

둘째: 소비자 에이전트(consumer agents). Claude 앱, ChatGPT 앱, Microsoft Copilot, 그리고 Zhipu의 새로운 AutoClaw (Claw Plan)가 이에 해당합니다. AutoClaw는 2026년 3월에 출시되어 20일 만에 40만 건의 구독을 달성했습니다. 내부적으로는 비기술적인 껍데기로 감싸진 코딩 에이전트이며, 일반 사람들이 "AI 직원을 고용"할 수 있게 해줍니다.

이 두 경로는 지불 의사(willingness to pay)가 매우 다릅니다.

코딩 에이전트 사용자들은 최정상급 지능—Opus 4.7, GPT-5.5 계층—을 요구합니다. 그보다 낮은 수준은 실패합니다. 작업 자체가 가치 있고, 절약된 시간 또한 가치 있기 때문입니다. 이들은 최상위 계층의 토큰을 지속적으로 구매할 것입니다. 고착도(Stickiness)는 별개의 문제입니다. 더 나은 모델이 출시되면 그들은 즉시 전환할 것입니다.

소비자 에이전트 (Consumer agent) 사용자들은 다릅니다. 이들의 작업은 가치가 더 낮고, 가격에 민감하며, 절대적인 최고 수준의 지능을 필요로 하지 않습니다. "중급 수준의 지능, 좋은 가성비, 수용 가능한 속도"를 갖춘 모델이 이들에게 완벽하게 부합합니다. 문제는 현재 그 계층이 비어 있으며, 실질적인 공급이 없다는 점입니다. 따라서 극단적인 가성비를 갖춘 DeepSeek V4가 이 세그먼트를 빠르게 점유했습니다. 제 주변의 많은 친구들이 DeepSeek으로 전환하는 것을 목격했습니다.

수요가 이와 같은 양상을 보이기 때문에, 모델 기업들은 돈이 흐르는 곳을 따릅니다. 이것이 바로 최상위 모델들은 지속적으로 컴퓨팅 (Compute) 부족을 외치는 반면, 중급 모델들은 찾는 이가 없는 이유입니다.

IV. 공급 측면의 불일치: 희귀한 카드와 유휴 랙의 공존

수요의 불일치는 컴퓨팅 (Compute) 시장으로 이어집니다.

최상위 컴퓨팅 (Compute) 부족은 명백합니다.

Jensen Huang은 NVIDIA의 Blackwell 시리즈 (B200/GB200)가 "2026년 중반까지 매진"되었으며, 새로운 기업 주문은 816주의 리드 타임 (Lead time)을 마주하고 있다고 직접 확인했습니다. Meta의 연간 자본 지출 (CapEx)은 1,000억 달러를 넘어설 것으로 예상되며, Microsoft는 단일 분기에 거의 350억 달러를 지출하고 있습니다. 모두가 이 칩들을 확보하기 위해 서두르고 있습니다. 중국에서는 B300과 H200을 향한 열풍이 불고 있습니다. B300 서버 한 대의 가격은 700만 위안에 달하지만 여전히 구할 수 없으며, 월 임대료는 13만20만 위안까지 치솟았습니다. H200은 2026년 1월 중국 판매 승인이 났으며, 첫 5,000~10,000 모듈 배치는 상위 벤더들이 즉시 낚아채 갔고, 클러스터 (Cluster) 인도 시점은 2027년 2분기로 밀려났습니다. 구형인 H100은 열기가 식었습니다. 이제 아무도 그것을 차지하기 위해 싸우지 않습니다.

국내 최상위급 칩들은 훨씬 더 극단적입니다. Huawei의 최신 Ascend 950PR은 2026년 3월에야 대량 생산을 시작했음에도 불구하고, 연간 계획인 750,000개가 이미 완전히 예약되었습니다: ByteDance (350,000), Alibaba (200,000), Tencent/Baidu (100,000), 정부 및 기업 IT 혁신 (100,000)—주문은 2027년까지 밀려났습니다. 칩당 약 $16,000, 1.56 PFLOPS FP4 성능으로, 공식적으로 H20 단일 카드 성능의 2.87배라고 주장됩니다. 이는 국내 AI 칩 역사상 처음으로 1년 치 생산량이 모두 매진된 사례입니다. DeepSeek V4가 오픈 소스로 공개되었을 때, 8개의 국내 칩에 대한 출시 당일 지원을 제공했으며, 기술 보고서에 NVIDIA GPU와 함께 Ascend NPU를 나열했습니다. GLM-5는 전적으로 Ascend + MindSpore를 통해 학습되었으며, 7개의 국내 칩을 지원합니다. 이는 포지셔닝의 문제입니다: 최상위 모델을 국내 칩에 안착시키는 것은 기술적 문제이자 공급의 문제입니다.

숨겨진 이면은 저사양 및 중사양 컴퓨팅 자원의 막대한 유휴 용량입니다.

PPIO의 창립자 Yao Xin은 일부 국내 GPU AI 컴퓨팅 센터의 유휴율이 최대 80%에 달한다고 말했습니다. 36Kr은 일부 센터의 가동률이 10~20%에 불과하다고 보도했습니다. 신화(Xinhua)는 더 직설적으로

소비자용 PCIe 카드(4090, 5090, 4090 48GB mod)는 정반대의 문제에 직면해 있습니다. 하드웨어는 구동 가능합니다. vLLM은 이미 5090을 지원하며(CUDA 12.8이 필요하며 FlashAttention 2로 폴백(fallback)하여 충분히 사용 가능함), 부족한 것은 이들을 위해 설계된 좋은 모델입니다. 70B 밀집(dense) 계층은 구식이 되었습니다. 2026년 5월 기준으로 상위 6개 오픈 소스 모델은 모두 MoE(Mixture of Experts)이며, 플래그십 수준에서 밀집(dense) 모델은 사실상 사라졌습니다. MoE의 총 파라미터(total parameters)는 통상 100B를 초과하여 소비자용 카드에 담을 수 없으며, 증류된(distilled) 소형 모델은 최상급 품질을 따라올 수 없습니다. 24GB/32GB/48GB VRAM 제한에 맞춘 새롭고 고품질인 모델을 공급하는 곳은 아무도 없습니다.

따라서 상황은 이렇습니다. 4090/5090 가격은 데이터센터용 카드에 비해 터무니없이 저렴하지만, 실제로 구동할 수 있는 미드티어(mid-tier) 모델은 여전히 2024년 말의 Llama 3.3 70B와 같은 구형 재고입니다. 로컬에서 실험하는 개인 개발자, 소규모 팀의 PoC(Proof of Concept), 그리고 개인정보 보호에 민감한 온프레미스(on-prem) 배포는 버틸 수 있습니다. 하지만 이 카드들로 기업급 미드티어 추론(inference)을 수행하기 위한 새로 최적화된 모델은 존재하지 않습니다.

문제는 "총 연산량(total compute)이 부족하다"가 아닙니다. "연산량이 수요와 일치하지 않는다"는 것입니다.

외부인들은 과거에 연산량을 "페타플롭스(petaflops)"로 인용하곤 했습니다. 그것은 항상 불확실한 지표였으며, AI 추론(inference) 시대에는 거의 무용지물입니다. 특정 연산 유닛이 최상위 모델을 서비스할 수 있는지 여부는 인터커넥트(interconnect), 메모리 대역폭(memory bandwidth), FP4/FP8 지원, KV 캐시(KV cache) 관리 능력에 달려 있습니다. 수백 대의 구형 카드가 최상위 카드 한 대의 싱글 스트림(single-stream) 속도를 따라갈 수 없습니다.

기이한 광경이 펼쳐집니다. 최상위 모델 제공업체들은 칩을 구하기 위해 혈안이 되어 있는 반면, 데이터센터의 이전 세대 카드들은 할인된 가격에도 임대되지 못하고 있습니다. 희소성과 과잉이 나란히 공존하고 있습니다.

V. 시장은 불일치를 교정하겠지만, 시간이 걸릴 것이다

이러한 불일치는 지속되지 않을 것입니다. 두 가지 병목 현상은 서로 다른 두 가지 시장 동력에 의해 밀려나게 될 것입니다.

중급(mid-tier) 데이터센터 카드(datacenter cards)의 인프라 격차는 엔지니어링 우선순위에 의해 주도될 것입니다. 추론 프레임워크(Inference frameworks)는 자본의 흐름을 따릅니다. 일단 중급 모델에 대한 수요가 성장하면, vLLM, SGLang, TensorRT-LLM과 같은 최상위 프레임워크들은 결국 H20, L20, 910B에 대한 최적화를 우선시할 수밖에 없을 것입니다. 화려하지는 않지만, 이는 필연적입니다.

소비자용 카드(consumer cards)의 모델 공급 격차는 증류(distillation)와 소형 MoE(Mixture of Experts)에 의해 밀려나고 있습니다. DeepSeek-V4는 이미 약 9B 버전을 증류해냈으며, Qwen 시리즈도 이 작업을 진행해 왔습니다. 누군가가 실제로 "32GB VRAM에서 작동하며 최상위 모델에 근접한 품질을 제공하는" 모델을 내놓는 순간, 유휴 상태인 4090과 5090들은 즉시 일거리를 찾게 될 것입니다.

또 다른 경로는 로컬 칩(domestic chips)과 로컬 모델(domestic models) 사이의 깊은 결합입니다. DeepSeek와 Zhipu 모두 이를 추구하고 있으며, 기술적으로는 실현 가능성이 입증되었습니다. 이것이 완전히 작동하기 시작하면, 저사양 및 중사양 컴퓨팅 시장은 구조적으로 재편될 것입니다.

저는 이것이 일어날 것이라고 상당히 낙관적으로 보고 있습니다. 단지 시간이 걸릴 뿐입니다. 몇 분기 정도일 수도 있고, 1~2년 정도일 수도 있습니다. 이 리듬을 포착하는 이들에게는 구조적인 기회의 창이 열릴 것입니다.

VI. 토큰을 단일 숫자로 축소하지 마십시오

도입부의 문장으로 돌아가 보겠습니다. "토큰 경제(Token economy)"는 괜찮은 용어이지만, 물이나 전기를 파는 것만큼 직관적이지는 않습니다.

그것은 주유소에 더 가깝습니다. 휘발유는 하나의 물건처럼 보이지만, 실제로는 지능(intelligence) × 속도(speed)의 행렬입니다. 여기에 공급 측면의 컴퓨팅 계층 불일치(compute tier mismatch)를 더하면, 오늘날 겉보기에 모순적인 산업 현상들의 실제 원인이 드러납니다. 왜 모델 기업들이 칩을 확보하기 위해 혈안이 되어 있는지, 왜 일부 AI 컴퓨팅 센터들은 유휴 상태로 방치되어 있는지, 왜 고성능 계층은 6배의 비용을 청구할 수 있는지, 그리고 왜 중급 지능 모델들의 등장은 더딘지에 대한 답 말입니다.

다음에 "우리는 N 페타플롭스(petaflops)를 배치했다"라거나 "우리는 매월 X조 개의 토큰을 생산한다"라는 문구를 보게 된다면, 잠시 멈추고 질문하십시오: 어떤 지능 계층인지, 어떤 속도 계층인지, 어떤 수요 계층인지 말입니다.

토큰은 실체가 아닙니다.

References

모델 버전 및 포지셔닝 (Model Versions and Positioning)

참고 자료