캐시된 가격(Cached Pricing)의 59포인트 격차로 인해 2026년 플랫폼이 Neoclouds 아래로 교차 하락
요약
AI 추론 시장에서 제3자 플랫폼의 할인율이 확대되며 GPU 네이티브 Neoclouds와 가격 역전 현상이 발생했습니다. 캐시된 입력 가격의 공격적인 재가격 책정으로 인해 채널 스택의 구조적 재편이 가속화되고 있습니다.
핵심 포인트
- 제3자 추론 플랫폼의 할인율이 50.1%로 확대되며 Neoclouds를 추월
- 캐시된 입력(Cached input) 가격의 공격적인 재가격 책정 지속
- 모델 크기에 따른 가격 프리미엄(Size spread) 격차 축소
- 오픈 웨이트 모델 확보 및 캐시 티어 확장이 플랫폼 경쟁력의 핵심
지난주 우리는 20주간의 깨끗한 데이터를 통해 텍스트는 연초 대비(YTD) 9.4% 압축된 반면, 추론(Reasoning), 미드 티어(Mid-tier), 그리고 예산형(Budget) 출력은 두 자릿수 상승을 기록하며 이원화된 시장이 나타났다고 기술했습니다. 21주 차에는 그 지도 위에 두 번째 구조적 차원이 추가됩니다. 채널 스택(Channel stack)이 재편되었으며, 2026년 들어 처음으로 평균 텍스트 모델에 대해 제3자 추론 플랫폼(Third-party inference platforms)의 가격이 GPU 네이티브 Neoclouds와 비슷하거나 심지어 그보다 낮게 책정되었습니다.
플랫폼 할인율은 20주 차의 48.0%에서 21주 차에는 50.1%로 확대되었습니다. 반면 Neocloud 할인율은 50.0%에서 48.6%로 축소되었습니다. 두 채널이 교차하면서, 올해 1분기 내내 유지되었던 할인 순위가 뒤집혔습니다. 클라우드 마켓플레이스(Cloud marketplaces)는 여전히 개발자 직접 가격과 가장 큰 격차를 보이고 있지만, 두 전문 채널 간의 관계는 형태가 변했습니다.
규모 격차(Size spread)는 7.2배에서 6.2배로 압축되었습니다. 20주 차에 더 큰 모델들이 작은 대안 모델들에 비해 점유했던 프리미엄은 19주 차의 5.8배 수치로 후퇴했습니다. 가격 벤치마크 자체는 안정적으로 유지되는 동안 구조적 KPI들이 가시적인 변화를 계속 만들어내고 있습니다.
이번 주는 조용했으며, 채널 재편이 핵심적인 변화를 주도함
매칭 세트(Matched-set) 기준 21주 차는 다시 한번 조용했습니다. 15개의 AIPI 벤치마크 인덱스 대부분은 모든 가격 방향에서 40 베이시스 포인트(bps) 미만의 변동을 기록했습니다. AIPI PLT GLB 캐시된 입력(Cached input)은 이번 주 가장 큰 단일 변동폭인 -0.39%를 기록했는데, 이는 제3자 플랫폼 전반에 걸쳐 지속되는 공격적인 캐시 재가격 책정(Cached repricing)을 반영합니다. AIPI CLD GLB 출력은 0.14% 하락했고 입력은 0.09% 하락했습니다. AIPI TXT GLB 출력은 0.07% 하락했고 입력은 0.05% 하락했습니다. AIPI FTR GLB 캐시된 입력은 0.08% 하락했으며, 나머지 프런티어(Frontier) 플래그십 벤치마크는 입력과 출력 모두에서 2 베이시스 포인트 이내를 유지했습니다. 체인 매칭 모델(Chained matched-model) 방법론은 51개 벤더로부터 5,296개의 가격 책정된 SKU를 흡수하였으며, 연초 대비(YTD) 현황은 그대로 유지된 채 주간 변동성은 억제되었습니다.
21주차의 이야기는 인덱스(indexes)에 있지 않습니다. 개별 SKU 가격이 20주차 수준과 유사하게 유지되는 동안, 채널 할인(channel discounts), 캐시된 가격(cached pricing)의 괴리, 그리고 크기 스프레드 되돌림(size spread retracement)이 모두 함께 움직였다는 점에 핵심이 있습니다.
채널 스택이 교차한 이유
제3자 추론 플랫폼(third-party inference platforms)이 더 저렴한 오픈 웨이트 모델(open weight models)을 지속적으로 확보하고 캐시된 가격(cached pricing) 티어를 확장함에 따라 플랫폼 할인 폭이 확대되었습니다. 플랫폼 채널 내 696개 SKU를 기준으로 평균 입력 가격은 현재 1,000 토큰당 $0.000680입니다. 반면, 936개 SKU에 걸친 직접 모델 개발자(direct model developer) 가격은 1,000 토큰당 $0.004702입니다. 입력 가격 측면에서의 수치적 우위는 이미 올해 초부터 플랫폼 측에 유리하게 형성되어 있었습니다. 21주차에 변화된 점은 구조적 KPI가 기저의 SKU 가격 현실을 따라잡으며 Neocloud 라인을 교차(cross)했다는 것입니다.
Neocloud 할인은 다른 방향에서 좁혀졌습니다. Neocloud 가격은 놀라울 정도로 안정적이었으며, 122개 SKU에 걸쳐 AIPI NCL GLB 입력 가격이 1,000 토큰당 $0.000301로 주간 변동이 미미했습니다. 변화가 생긴 지점은 할인을 측정하는 기준이 되는 모델 개발자 베이스라인(model developer baseline)입니다. AIPI DEV GLB 입력 가격이 연초 대비(YTD) -0.7%로 완만하게 표류함에 따라, Neocloud와 직접 개발자 간의 격차가 좁혀졌습니다. Neocloud가 더 비싸진 것이 아니라, Neocloud가 가격을 유지하는 동안 직접 개발자 가격이 더 저렴해진 것입니다.
캐시된 가격의 분리
AIPI FTR GLB 캐시된 입력(cached input)은 1월 대비 39.2% 높게 형성되어 있습니다. 반면 AIPI PLT GLB 캐시된 입력은 19.5% 낮게 형성되어 있습니다. 프런티어(frontier) 채널과 플랫폼(platform) 채널 사이의 59포인트 스프레드는 12월 추적을 시작한 이래 모든 캐시된 가격 방향성 중에서 연초 대비(YTD) 가장 넓은 괴리를 보여줍니다.
Frontier (최첨단) 플래그십 모델들은 캐시된 입력 가격(cached input pricing)이 비캐시 입력 대비 70~90% 할인된 구조를 갖춘 채 2026년에 진입했습니다. 1분기를 거쳐 2분기에 접어들면서 여러 벤더들이 캐시 티어(cached tiers)를 재편했으며, 어떤 경우에는 할인율을 축소하고, 다른 경우에는 캐시 입력을 새로운 프롬프트 처리 최소 기준(prompt processing minimums)과 결합하기도 했습니다. 그 결과, 체인형 매칭 모델 프래티어 캐시 벤치마크(chained matched-model frontier cached benchmark)는 단 한 번의 움직임이 아니라 21주에 걸쳐 단계적으로 상승했습니다.
반면 AIPI PLT GLB 캐시 입력은 반대 방향으로 움직였습니다. 추론 플랫폼(Inference platforms)들은 2분기 동안 캐시 접근 권한을 공격적으로 확장했으며, 모든 텍스트 모델에 걸친 캐싱 가용성(caching availability)은 19주의 22.8%, 2분기 초의 16.9%에서 상승하여 21주 차에는 전체의 23.4%를 넘어섰습니다. 플랫폼을 통해 제공되는 가격 티어는 카테고리상 개발자 직접 캐시 가격(direct developer cached pricing)보다 할인된 경향이 있으며, 이러한 누적 효과로 인해 플랫폼 캐시 벤치마크는 연초 대비(YTD) 19.5% 하락했습니다.
59포인트의 괴리는 단일 주간의 사건이 아니라, 프래티어 캐시 가격은 끌어올리고 플랫폼 캐시 가격은 동시에 끌어내린 3개월간의 구조적 움직임이 남긴 누적된 흔적입니다.
두 트랙의 유지
지난주에 나타난 연초 대비(YTD)의 이중 트랙 양상은 그대로 유지되고 있습니다. AIPI TXT GLB의 입력 가격은 1월 대비 9.4% 낮게 형성되어 있습니다. AIPI MID GLB는 입력에서 13.0%, 출력에서 14.5%의 차이를 보입니다. AIPI RSN GLB는 입력에서 11.4%, 출력에서 10.1%를 기록하고 있습니다. AIPI BDG GLB의 출력은 연초 대비 12.4% 상승했습니다. AIPI FTR GLB는 입력에서 -0.2%, 출력에서 -0.1%로 거의 보합세를 유지하며, 프래티어 플래그십(frontier flagship)만이 1월 기준점 내에서 베이시스 포인트(basis point) 범위 안으로 유지되고 있는 유일한 티어라는 지난주의 그림을 완성했습니다.
오픈 소스 (Open source) 우위는 20주 차의 68.8%에서 21주 차의 69.7%로 확대되었습니다. 롱 컨텍스트 (Long context) 모델의 가격 책정이 상단으로 재조정됨에 따라, 컨텍스트 비용 곡선 (Context cost curve)은 3.4배에서 3.6배로 상승했습니다. 추론 프리미엄 (Reasoning premium)은 17주 차의 2.2배부터 점진적으로 축소되어 1.8배에서 1.7배로 압축되었습니다. 캐싱 (Caching) 가용성은 텍스트 모델의 23.4%를 넘어섰습니다.
범위 및 구조
21주 차의 범위는 51개 벤더와 3,249개 모델에 걸친 5,296개 SKU로 확정되었으며, 이는 4월 변경 감지 로그를 통해 표시된 레거시 모델의 계획된 상장 폐지를 9개 벤더가 완료함에 따라 20주 차보다 약간 낮아진 수치입니다. 이러한 상장 폐지는 예산 및 중간 티어 (Mid tier) 세그먼트에 가장 큰 영향을 미쳤으나, 매칭 모델 (Matched-model) 방법론이 체인 신호 (Chained signal)를 방해하지 않고 이를 흡수했습니다.
채널 인구 통계학적 물리 법칙 (Channel population physics)은 교차 현상이 어떻게 형성되었는지 명확히 보여줍니다. 플랫폼 (Platform)은 696개 SKU를 커버하고, 네오클라우드 (Neocloud)는 122개, 직접 모델 개발자 (Direct model developers)는 936개를 커버합니다. 플랫폼은 SKU 수 기준으로 네오클라우드보다 약 6배 더 크며, 이러한 폭넓은 범위 덕분에 플랫폼 가격이 더 작은 네오클라우드 풀보다 더 빠르게 새로운 균형점을 찾을 수 있었습니다. SKU 기반이 더 얇은 네오클라우드는 월간 변동성이 적고 더 긴 기간 동안 가격을 유지하는 경향이 있습니다. 플랫폼 채널의 압축은 진행될 여지가 있었으며, 21주 차에 네오클라우드 선과 맞물리게 되었습니다.
캐시된 가격 (Cached pricing) 격차는 이와 유사한 인구 통계 역학으로 거슬러 올라갑니다. 21주 차에 추적된 800개의 텍스트 모델 중 187개가 캐시된 입력 가격 (Cached input pricing)을 제공하며, 이는 전체의 23.4%에 해당합니다. 이 187개 SKU는 채널 간에 불균등하게 나뉘어 있으며, 플랫폼은 직접 개발자 상대군에 비해 가장 깊은 캐시 가격 풀을 보유하고 있습니다.
향후 전망
다음 주에 첫 번째 2분기 분기별 분석이 가능해집니다. 만약 채널 교차 현상이 22주 차까지 유지된다면, 이는 해당 분석의 주요 프레임워크가 될 것입니다. 만약 다시 되돌아간다면, 2분기는 인덱스가 4월부터 유지해 온 투트랙 티어 (Two-track tier) 내러티브에 고정될 것입니다.
DeepSeek V4의 제3자 플랫폼(third-party platforms)을 통한 확산이 21주 차에도 계속되었습니다. 만약 이 시리즈가 교체 대상인 V3 모델보다 낮은 채널 가격(channel pricing)으로 안착한다면, AIPI PLT GLB 캐시된(cached) 가격은 연초 대비(YTD) 19.5%의 하락세를 더욱 확대하고, 채널 캐시 격차(channel cached spread)를 60포인트 이상으로 벌릴 수 있습니다.
21주 차에 Azure Foundry에 안착한 Grok 4.2의 정렬(alignment)은 프런티어 플래그십(frontier flagship) 채널 가격을 제공업체 전반에 걸쳐 통일된 요율에 더 가깝게 가져왔습니다. 22주 차에는 다른 Azure 호스팅 프런티어 모델 시리즈가 유사한 가격 정렬을 따르는지 테스트하게 될 것이며, 특히 채널 격차가 넓게 유지되고 있는 캐시된 입력(cached input) 부문이 관건이 될 것입니다.
방법론 및 리소스
추론 가격 벤치마크(Inference Price Benchmark)는 매주 월요일 동부 표준시(Eastern Time) 오전 9시에 발행됩니다.
전체 인덱스 방법론은 a7om.com/methodology에서 확인할 수 있습니다.
AI 에이전트 및 개발 워크플로우(dev workflows)를 위한 실시간 가격 정보: a7om.com/mcp
분석가 및 FinOps를 위한 전체 추론 시장 인텔리전스: a7om.com/terminal
기업 라이선싱을 위한 구조화된 데이터 피드: a7om.com/feed
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기