프론티어 모델 포위망 — 무너지기 시작하는 가치 독점 - Insights | Molayo

필자는 최근, Hermes Agent와 Obsidian을 마주하며 오랜만에 '열중'하는 느낌을 받았다. ChatGPT를 처음 보고 흥분했을 때 이후의 감각이었다.

그로부터 프론티어 모델(Frontier Model)은 놀라운 정밀도 향상을 보여주며, 순식간에 우리의 생활권까지 파고들었다. 특히 코드를 작성하는 소프트웨어 산업에 미치는 영향이 커서, 업계의 격변을 피부로 느끼고 있다.

한편으로는 문득 멈춰 서는 순간도 늘었다. "오늘 날씨를 알려줘"와 같이 결정론적인(Deterministic) 수단으로도 충분히 답할 수 있는 질문에, 방대한 전력을 사용하는 최첨先端 AI를 호출하는 것에 대한 시비(是非). Local LLM으로 프론티어 모델보다 2~3자리 작은 모델을 돌려보면, 작은 모델로도 충분한 태스크가 상당히 많다는 것, 그리고 모델은 교체 가능하다는 것을 실감으로서 이해하게 된다. 그러면 "모든 것을 프론티어 모델에게 물어보는 것"이 정말 최적인가라는 의문이 머릿속에 떠오른다. Hermes Agent와 마주하는 시간이 길어질수록, 그 의문은 확신에 가까워졌다.

그 위화감을 가능한 한 냉정하게 언어로 표현해 보고자 한다.

프론티어 모델은 지금도 AI의 중심에 있다.

GPT, Claude, Gemini, Grok, Qwen, Llama 계열의 대형 모델은 문장 생성, 추론(Reasoning), 코드, 멀티모달(Multimodal), 에이전트 실행의 어느 영역에서도 여전히 최첨단을 넓혀가고 있다.

따라서 이 기사는 "프론티어 모델은 이제 필요 없어진다"는 이야기가 아니다. 오히려 반대다. 강력한 모델은 앞으로도 계속 사용될 것이며, 이용 총량은 오히려 늘어날 것이다.

다만, 한 가지 조용히 변하고 있는 것이 있다. 모든 용도에서 "반드시 이 프론티어 모델이어야만 한다"라고 지명되는 상황이 조금씩 줄어들고 있다.

아래에서는, 스몰 사이즈 모델(Small-size Model)이 경작업을 빼앗는다.
옆에서는, 충분한 품질의 모델들이 가로로 나란히 늘어선다.
뒤에서는, 차세대 모델이 "최강"의 유효 기간을 단축시킨다.
토대에서는, 고품질 데이터의 제약이 무거워진다.
그리고 위에서는, 에이전트가 컨텍스트(Context)를 유지한 채 백그라운드의 모델을 교체하며, 사용자로부터 모델명을 보이지 않게 만든다.

이 다각도에서의 압력을 본 기사에서는 프론티어 모델 포위망이라 부른다.

그렇다면 포위하고 있는 것은 무엇이며, 포위당하고 있는 것은 무엇인가. 하나씩 살펴보자.

첫 번째 그림자는 아래에서 온다.

가벼운 작업 — 분류, 추출, 짧은 초안 작성, 정형 변환 — 을 위해 굳이 프론티어 모델을 지명할 이유가 급격히 옅어지고 있다.

스몰 모델(Small Model)의 위협은 "작은 모델도 의외로 쓸만하다"는 이야기가 아니다. 동일한 수준의 능력을 내기 위해 필요한 모델 사이즈와 추론 비용(Inference Cost)이 급격히 작아지고 있다는 점에 있다.

Stanford AI Index 2025의 수치가 이를 단적으로 보여준다. MMLU에서 60%를 넘는 최소 모델은 2022년에는 PaLM의 5,400억 파라미터(Parameter) 급이었다. 그것이 2024년에는 Microsoft의 Phi-3-mini, 불과 38억 파라미터 급까지 작아졌다. 약 2년 만에 142분의 1이다.

추론 비용도 같은 방향으로 움직이고 있다. GPT-3.5 상당(MMLU 64.8%)의 성능을 내는 모델의 비용은 2022년 11월 100만 토큰당 20달러에서, 2024년 10월에는 0.07달러(Gemini-1.5-Flash-8B)까지 떨어졌다. 약 18개월 만에 280분의 1 이상이다.

이는 경작업을 프론티어 모델에 맡기는 경제적 합리성이 아래에서 깎여 나가고 있다는 뜻이다. 프론티어 모델이 약해진 것이 아니다. 프론티어 모델을 사용해야 "마땅한" 태스크의 범위가 아래에서 좁아지고 있는 것이다.

반증·한계: MMLU 60%, GPT-3.5 상당(64.8%)은 최전선의 종합 성능이 아니라, 어디까지나 "충분한 품질"의 하한을 나타내는 지표다. 여기서 말할 수 있는 것은 "프론티어 모델 불필요"가 아니라, "경작업에서의 지명 수요가 아래에서 깎인다"까지이다. 추론 비용 또한 API 제공 조건이나 프롬프트 설계에 따라 변동한다.

두 번째 그림자는 옆에서 온다. 동세대 모델들 간의 이야기다.

포화란 진보가 멈추는 것이 아니다. 오히려, 상위 모델들이 모두 높은 수준에 도달한 결과, "반드시 이 회사여야만 한다"라는 근거가 약해지는 것이다.

Stanford AI Index 2026에 따르면, Chatbot Arena의 Elo 점수는 2026년 3월 기준으로 Anthropic 1503, xAI 1495, Google 1494, OpenAI 1481 — 상위 4개사가 25점 이내로 밀집해 있다. 그 아래로 Alibaba 1449, DeepSeek 1424가 뒤를 잇는다.

이러한 수렴은 수년에 걸쳐 진행되었다. AI Index 2025에 따르면, Arena에서의 톱 모델과 10위 모델 간의 격차는 11.9%에서 5.4%로, 톱 2 모델 간의 격차는 4.9%에서 0.7%로 줄어들었다. 그리고 AI Index 2026은 세무, 주택 담보 대출 처리, 기업 재무(Corporate Finance), 법률 추론과 같은 전문 업무 계열의 평가에서도, 상위 15개 모델의 차이가 각 벤치마크(Benchmark)에서 불과 3포인트 정도까지 좁혀졌다고 보고하고 있다. 이는 단순히 '채팅 선호도'의 문제가 아니라는 뜻이다.

이렇게 되면 실무에서 중요해지는 것은 순수한 점수 차이만이 아니다. 가격, 속도, 안정성, 긴 문맥(Long Context), 코드, 일본어, 사내 데이터와의 연결성. 선정 기준은 모델 단일의 강함에서 이용 문맥(Context)으로 옮겨가고 있다.

반증·한계: AI Index 2026 자체에서도 벤치마크의 무효화 문제율(GSM8K에서 최대 42%)이나, Arena 순위가 '플랫폼에 대한 적응'을 부분적으로 반영할 수 있음을 지적하고 있다. 따라서 이 장의 결론은 '모두가 똑같다'가 아니라, '점수 차이만으로는 지명 이유가 되기 어렵다'이다.

세 번째 그림자는 뒤에서 온다. 포화(가로 방향)와는 별개의, 세로 방향의 진부화다.

오늘의 최강 모델은 오랫동안 최강으로 남을 수 없다. 이는 단순히 '새 모델이 나온다'는 이야기가 아니다. 평가 지표 자체가 단기간에 진부해지며, 리더보드(Leaderboard)도 높은 빈도로 업데이트되고 있다.

상징적인 것이 인간 전문가에게 유리하도록 설계된 난제 벤치마크 Humanity's Last Exam (HLE)이다. Scale Labs의 공식 리더보드에서 점수 추이를 따라가 보면 그 급격한 상승을 잘 알 수 있다.

모델	Leaderboard상의 표기·시점	HLE 점수
GPT-4o	November 2024	2.72
...
※ HLE 점수는 Scale Labs Leaderboard를 2026년 5월 21일에 열람한 시점의 값. Leaderboard는 업데이트되므로, 기사 공개 시 재확인할 것.

'수년은 쓸 수 있을 것'이라 여겨졌던 난제 벤치마크조차, 프론티어 모델은 1년 만에 한 자릿수에서 40%대 후반까지 치고 올라갔다. AI Index 2026도 HLE에서 프론티어 모델이 1년 만에 약 30포인트 상승했다고 정리하고 있다.

새로운 유력 후보가 늘어나는 속도도 빠르다. Arena의 리더보드 업데이트 이력(Changelog)을 보면, 2025년 말부터 2026년 봄까지의 추가만 해도 —

2025-12-04 Grok 4 Fast Reasoning
2026-02-06 Claude Opus 4.6
2026-02-19 Gemini 3.1 Pro Preview
...

주요 모델의 추가는 월 단위는커녕 주 단위로 계속되고 있다.

그리고 이 차세대 모델의 등장 속도에는 물리적인 천장도 보이기 시작했다. 차세대 모델은 온다. 다만 그 속도는 전력 및 냉각 인프라의 건설 속도에 의해 제약(Rate-limiting)받기 시작했다.

'최강'은 고정된 칭호가 아니라, 유통기한이 짧은 라벨이 되어가고 있다. 특정 프론티어 모델에 장기적으로 락인(Lock-in)될 합리성은 뒤에서부터 무너져 내리고 있다.

반증·한계: HLE의 점수는 사고(Thinking) 모드나 평가 설정에 영향을 받으며, 사용자 경험을 그대로 나타내는 것은 아니다. 또한 리더보드 업데이트 빈도가 곧바로 시장 점유율이나 사내 표준의 전환 빈도를 의미하지는 않는다. 따라서 이 장의 결론은 '최강이 매달 교체된다'가 아니라, '최강의 유효 기간이 짧아지고 있다'이다.

네 번째 그림자는 토대에서 온다.

데이터 고갈이란 '이제 AI는 학습할 수 없다'는 의미가 아니다. 문제는, 지금까지 스케일링(Scaling)을 지탱해 온 공개된 인간 텍스트라는 연료에 한계가 보이기 시작했다는 것이다.

Epoch AI는 품질과 중복을 보정한 공개된 인간 텍스트의 유효 재고를 약 300조 토큰(90% 신뢰 구간에서 100조~1,000조)으로 추정하고 있다. 그리고 현재의 LLM 개발 트렌드가 지속된다면, 이 재고는 2026년부터 2032년 사이에 충분히 소진될 것이라고 예측한다(중앙 예측치는 2028년). 학습 효율을 위해 더 많은 데이터로 학습시키는 '과잉 학습 (Overlearning)'을 강화하면, 고갈은 더욱 빨라질 것이다.

따라서 성장의 주전장은 단순한 웹 텍스트의 대량 투입에서 전문 데이터, 합성 데이터 (Synthetic Data), 도구 이용 로그, 추론 시 계산 (Inference-time Compute), 워크플로 통합으로 옮겨가게 된다. 스케일링 (Scaling)을 견인해 온 최대 연료가 줄어든다는 사실은 토대에서의 압력으로 작용한다.

반증·한계: Epoch AI의 추정은 고품질·공개·인간 생성 텍스트에 한정되어 있다. 사유 데이터, 멀티모달 데이터 (Multimodal Data), 합성 데이터, 포스트 트레이닝 (Post-training), 운영 로그는 이 수치 밖에 있다. 그러므로 이 장은 '고갈'이 아니라 '성장의 연료가 바뀐다'라고 읽는 것이 강력하고 안전하다.

다섯 번째 그림자는 위에서 내려온다. 그리고 이 기사에서 가장 중요한 것은 바로 여기다.

지금까지의 네 가지 그림자는 모두 '모델 간의 경쟁'이었다. 아래에서, 옆에서, 뒤에서, 토대에서 — 모두 모델 시장 내부의 이야기다. 하지만 이 다섯 번째만은 다르다. 에이전트 추상화 (Agent Abstraction)가 중요한 이유는 모델 간의 경쟁이 아니라, 모델이 UI에서 사라지는 이야기이기 때문이다.

증거는 두 단계로 보고 싶다.

첫 번째 단계. OpenRouter와 a16z의 State of AI 2025는 100조 토큰 규모의 실제 이용 메타데이터(300개 이상의 활성 모델, 60개 이상의 프로바이더)를 분석하여, 추론 지향 (Reasoning-optimized) 모델로 흐르는 토큰 비율이 2025년 초의 거의 0%에서 50% 이상으로 상승했다고 밝혔다. 평균 시퀀스 길이 또한 2023년 말의 2,000 토큰 미만에서 2025년 말에는 5,400 토큰 이상으로 늘어났다. LLM의 이용은 단발성 채팅에서 긴 문맥·도구 호출·상태 관리를 포함하는 에이전트적 추론 (Agentic Inference)으로 옮겨가고 있다.

두 번째 단계. RouteLLM과 같은 라우팅 (Routing) 기법은 태스크마다 강력한 모델과 저렴한 모델을 전환함으로써, GPT-4의 95%에 상당하는 품질을 유지하면서도 최대 85%의 비용을 절감할 수 있음을 보여준다.

이 두 가지가 합쳐지면 어떤 일이 벌어질까. 실제 이용의 중심이 에이전트적 추론 (Agentic Inference)으로 옮겨가고, 게다가 모델 선택을 뒷단의 라우터 로직에 흡수하는 경제적 합리성이 존재한다. 여기서부터 상당히 강력한 추론이 가능하다 — 사용자는 '어떤 모델을 쓸 것인가'가 아니라 '어떤 에이전트에게 맡길 것인가'를 생각하게 된다. 그 이면에서는,

이 요약은 로컬 LLM
이 설계 판단은 Claude
이 코드 수정은 Codex
이 사전 읽기는 Gemma
이 공개 문서 정리는 GPT

와 같이 전환되고 있더라도 사용자는 이를 의식하지 않는다.

여기서 일어나는 것은 모델의 패배가 아니다. 모델의 부품화 (Componentization of Models) 이다. 사용자에게 보이는 주인공은 GPT도 Claude도 Gemini도 아닌, '자신의 에이전트'가 된다. 이것이 모델의 무개성화 (Depersonalization of Models) 이다.

반증·한계: OpenRouter의 데이터는 관찰적 (Observational)이며, 플랫폼상의 가격·공급·사용자층에 영향을 받는다. RouteLLM이 보여주는 것은 '라우팅의 경제적 합리성'이지, 사용자 의식의 변화를 직접 측정한 것은 아니다. 따라서 '사용자가 모델 이름을 보지 않게 된다'는 것은 1차 자료가 직접 관측한 사실이 아니라, 거기서 도출한 — 강력하지만 — 추론임을 명시해 둔다.

지금까지의 다섯 가지 그림자는 기술과 시장 측면에서 본 압력이었다. 하지만 또 하나, 위의 모든 그림자를 증폭시키는 여섯 번째 그림자가 있다. 바로 자본 시장으로부터의 기대다.

여기서 일어나고 있는 것은 자금의 소멸이 아니다. 자금의 선별 (Selection of Capital) 이다.

AI 인프라에 대한 투자액은 오히려 거대화되고 있다. Stanford AI Index 2026에 따르면, 전 세계 기업 AI 투자는 2024년 2,532억 달러에서 2025년에는 5,817억 달러(전년 대비 130% 증가)로 늘어난다. 생성 AI 관련 투자만 해도 1,709억 달러로 전년 대비 200% 이상 증가했다. 10억 달러를 넘는 투자 이벤트는 2024년 15건에서 2025년에는 28건으로 거의 두 배 증가했다. 주요 클라우드 사업자의 설비 투자도 AI 인프라 수요를 배경으로 기록적인 수준으로 불어나고 있다.

미래 전망도 거대하다. 2026년 AI 인프라 투자에 대해 주요 금융 기관의 견해는 다음과 같다.

추산 기관	2026년 투자액	대상 및 성격
Goldman Sachs	약 5,270억 달러	하이퍼스케일러 (Hyperscaler) 설비 투자 애널리스트 컨센서스 (상향 조정 지속)
...	...	...
대상 기업도, 비용 항목도, 관측 시점도 다른 별개의 추산이지만, 어떤 전망치든 2026년 한 해에만 5,000억~7,000억 달러를 초과하는 단위가 된다. 자금은 줄어들기는커녕 오히려 불어나고 있다.

하지만 투자자들은 모든 AI 투자를 동일하게 평가하지 않기 시작했다. Goldman Sachs는 이익 성장이 압박받고 차입을 통해 설비 투자를 충당하는 인프라 기업으로부터는 자금이 회피되는 반면, 한편으로는 '설비 투자와 매출의 결합'을 보여줄 수 있는 기업이 보상받고 있다고 명시했다. 질문되는 것은 "그 CAPEX(자본적 지출)가 어떤 매출로 변하는가", "그 클러스터(Cluster)가 정말로 구축되는가", "그 전력은 어디서 오는가"이다. 지명 수요가 떨어지고, 최강의 유통기한이 짧아지며, 모델이 에이전트(Agent)에 흡수되어 간다 — 그림 1~5의 하나하나가 이 질문을 무겁게 만든다.

나아가, 자금만으로는 데이터 센터를 지을 수 없다. IEA는 전 세계 데이터 센터의 전력 소비가 2024년 약 415TWh에서 2030년에는 약 945TWh로 증가하며, 2024~~2030년 사이 연간 약 15%씩 성장할 것으로 보고 있다 (타 부문의 전력 수요보다 4배 이상 빠른 속도). 데이터 센터 본체는 2~~3년 안에 지어질 수 있어도, 송전선 정비에는 선진국 기준으로 4~8년이 걸린다. 그 결과, 계획 중인 데이터 센터의 약 20%가 전력 계통의 제약으로 인해 지연 리스크에 노출될 수 있다고 한다.

즉, 제약의 핵심은 "돈이 있는가"에서, **"돈을 전력·용지·냉각·계통 연결로 전환할 수 있는가"**로 옮겨가고 있다.

이것은 "AI 버블이 붕괴한다"는 이야기가 아니다. AI 영역으로 유입되는 총 자금은 계속해서 늘어날 것이다. 하지만 그것이 프론티어 모델(Frontier Model) 단독에 무조건적으로 집중되는 구도는 무너지고 있다. 자금은 사라지는 것이 아니라, 선별되어 목적지를 바꾼다.

반증·한계: 상기 표의 세 가지 추산은 대상 기업, 비용 항목, 관측 시점이 다른 별개의 지표이므로 하나의 선형 그래프로 섞어서는 안 된다 (그렇기에 본 기사에서도 표로 병치하는 데 그치고 있다). IEA의 945TWh나 20% 지연 리스크 역시 베이스 케이스(Base case)의 전제가 깔린 수치이며, 정책·효율 개선·입지 분산에 따라 변할 수 있다. 따라서 이 장은 '수축'이 아니라 '선별'에서 멈추는 것이 정확하다.

여섯 가지 그림을 하나의 동사로 바꾸어 본다.

작아진다— MMLU 60% 초과를 달성하는 최소 모델이 540B에서 3.8B로 (그림 1) -
저렴해진다— GPT-3.5 상당의 추론(Inference) 비용이 $20에서 $0.07로 (그림 1) -
밀집된다— Arena 상위 4개사가 25 Elo 이내로 밀집 (그림 2) -
낡아진다— 난제 벤치마크가 수개월1년 만에 포화 (그림 3) -
부족해진다— 공개된 인간 텍스트가 20262032년 사이에 제약됨 (그림 4) -
보이지 않게 된다— 추론(Reasoning) / 에이전트적(Agentic) 이용이 50% 초과 (그림 5) -
짓기 어려워진다— 데이터 센터 전력 수요가 415TWh에서 945TWh로 (그림 6)

프론티어 모델을 쓰러뜨릴 '단일한 적'은 없다. 아래에서, 옆에서, 뒤에서, 토대에서, 위에서, 그리고 자본의 측면에서 — 여러 압력이 동시에 다가오고 있다. 그렇기에 '포위망'인 것이다.

그리고 포위되고 있는 것은 프론티어 모델의 능력 그 자체가 아니다. 포위되고 있는 것은, "강한 모델만으로 가치를 독점할 수 있다"는 구도 그 자체다.

정확히 말하자면 다음과 같다.

프론티어 모델의 총 이용량은 늘어날 수도 있다.
하지만 모든 용도에서 특정 프론티어 모델을 지명하여 구매할 필요성은 낮아진다.
지명 수요는 라우팅(Routing) 대상으로서의 수요로 변한다.
그리고 프론티어 모델은 정말로 어렵고 고부가가치인 용도로 밀려 올라가게 된다.

"수요가 줄어드는 것"이 아니다. "지명 수요가 줄어드는 것"이다.

그렇다면 앞으로의 AI 경쟁은 무엇에 대한 경쟁이 될 것인가.

모델 단일의 성능 경쟁으로는 끝나지 않는다. 어떤 모델을, 어떤 문맥(Context)에서, 어떤 에이전트가, 어떤 워크플로우(Workflow)에 연결할 것인가의 경쟁이 된다.

이는 로컬 LLM, 에이전트 운용, Obsidian, Kanban 등 '운용 설계'에 주목해 온 사람들에게는 오히려 순풍이다. 가치의 중심이 모델이라는 한 점으로부터 모델 × 에이전트 × 문맥 × 워크플로우라는 구성으로 이동하기 때문이다.

프론티어 모델 포위망이란 강한 모델이 불필요해진다는 이야기가 아니다. 강한 모델은 앞으로도 필요하다. 오히려 중요한 장면에서는 점점 더 필요해질 것이다.

다만, 그 가치는 모델 단독으로 폐쇄되지 않는다. Local LLM, Hermes Agent, Obsidian, Kanban과 같은 문맥 유지(Context Retention) 및 운용 설계 계층이 전단에 서게 될 때, 승부처는 "최강의 모델을 보유하는 것"이 아니라, **"강한 모델을 적절한 문맥과 에이전트, 그리고 워크플로(Workflow)에 연결할 수 있는가"**로 옮겨간다.

앞으로의 AI 경쟁은 모델 경쟁인 동시에, 에이전트 경쟁, 문맥 경쟁, 워크플로 경쟁이 될 것이다.

프론티어 모델 포위망이란, 강한 모델이 불필요해진다는 이야기가 아니라, 강한 모델만으로는 가치를 독점할 수 없게 된다는 구조적 변화를 의미한다.

마지막으로 개인적인 이야기를 조금만 덧붙이겠다.

필자는 인터넷 붐이 시작되려던 무렵, 네트워크 전문가이면서도 "위성 통신"이라는 방계 분야에 몸을 던졌다. 그것 나름대로 재미있는 인생이었다고 생각한다. 다만, 자신의 능력을 인터넷의 본류에 쏟았다면 또 다른 풍경을 보고 있었을지도 모른다—가끔 그런 생각이 들 때가 있다.

에이전트의 조류는 LLM과 대등하거나, 혹은 그 이상의 움직임(Movement)이 될 수 있다. 아이러니하게도 필자는 Starlink의 부상으로 인해 기존 방식의 위성 통신 사업 환경이 변하면서, 오랫동안 몸담았던 "위성 통신"에서 오히려 조금 거리를 두게 되었다. 그렇기에 이번에는 인터넷의 재림이라까지 불리는 이 거대한 조류의, 바로 그 중심 본류를 타고 넘어가 보고 싶다.

프론티어 모델 그 자체를 만드는 쪽이 될 수는 없더라도, 강한 모델을 문맥과 에이전트, 그리고 워크플로에 연결하는 계층이라면 아직 본류에 합류할 수 있다. 이 글은 그 확신의 윤곽을 나름대로 그려본 것이다.

Stanford HAI, AI Index 2025 (2025년 4월) — 소형 모델의 성능 향상 (MMLU 60% 초과 최소 모델이 PaLM 540B에서 Phi-3-mini 3.8B로, 142분의 1), GPT-3.5 상당의 추론 비용이 $20/M tokens에서 $0.07/M tokens로 (280분의 1 이상), Arena 상위 모델 간의 격차 축소 (11.9%→5.4%, 4.9%→0.7%) -
Stanford HAI, AI Index 2026 (2026년 4월) — Arena Elo 상위 모델의 밀집 (2026년 3월 시점), Humanity's Last Exam에서 1년 사이 30포인트 상승, 전문 업무 벤치마크 상위 15개 모델의 격차 3포인트, 벤치마크 무효 문제율 및 Arena 적응에 관한 유보 사항, 기업 AI 투자·생성형 AI 투자·투자 이벤트 건수 (Economy) -
Scale Labs, Humanity's Last Exam Leaderboard — 프론티어 모델의 HLE 점수 추이 -
LMArena, Leaderboard Changelog — 주요 모델 추가의 빈번화 (2025년 말2026년 봄) -
Epoch AI, Will we run out of data? (2024년 6월 개정, arXiv:2211.04325) — 공개된 인간 텍스트의 유효 스톡 약 300조 토큰 (90% CI 100조1,000조), 20262032년에 충분히 이용될 가능성 (중앙 예측 2028년) -
OpenRouter / a16z, State of AI 2025 (2025년 12월) — 100조 토큰 초과 실사용 분석, 추론(Reasoning) 모델의 토큰 점유율 50% 초과, 평균 시퀀스 길이 5,400 초과, 에이전트적 추론(Agentic Inference)으로의 전환 -
RouteLLM (GitHub: lm-sys/routellm, arXiv:2406.18665) — 태스크에 따른 LLM 라우팅(Routing), 최대 85%의 비용 절감 및 95%의 GPT-4 성능 유지 -
IEA, Energy and AI (2025년 4월) — 데이터 센터 전력 소비 415TWh → 945TWh (연간 약 15% 성장), 계획 중인 안건의 약 20%가 지연 리스크, 데이터 센터 건설 23년 vs 송전선 정비 4~8년 -
Goldman Sachs ("Why AI Companies May Invest More than $500 Billion in 2026") — 2026년 하이퍼스케일러 설비 투자 컨센서스 약 5,270억 달러, 투자자에 의한 선별 (설비 투자와 매출의 결합) -
Morgan Stanley ("AI Capex 2026") — 주요 테크 기업의 2026년 설비 투자 7,400억 달러, 전년 대비 69% 증가 -

Reuters / S&P Global (Visible Alpha 추산)— Microsoft, Amazon, Alphabet, Meta의 2026년 AI 인프라 계획액 약 6,350억 달러 (4개사 합산 추산), 전력 및 인프라 용량의 제약

※ 수치는 모두 공표 시점의 것이며, 대상 기업 세트, 비용 항목, 관측 시점이 다른 지표를 포함하고 있음. 예측에는 범위가 존재하므로 인용 시에는 최신 1차 정보를 확인할 것. 각 Capex 수치(5,270억 / 7,400억 / 6,350억 달러)는 출처, 대상, 시점이 다르므로 혼동하지 말 것.

프론티어 모델 포위망 — 무너지기 시작하는 가치 독점

요약

핵심 포인트

댓글