AI 비용의 역설: 280배 저렴해졌음에도 청구액은 여전히 상승 중

유능한 AI 모델을 실행하는 비용은 2년 만에 약 280배 하락했습니다. 하지만 같은 기간 동안 평균적인 기업의 AI 청구액은 줄어들기는커녕 오히려 상승했습니다. 두 수치 모두 실제이며, 둘 다 신뢰할 수 있는 연구에서 비롯되었습니다. 그리고 이 두 수치 사이의 간극은 운영자가 2026년 AI 경제학에 대해 이해할 수 있는 가장 유용한 핵심 요소입니다. 이는 왜 동일한 회의에서, 동일한 사람들이, 동일한 시스템을 두고 "모델은 계속 저렴해지고 있다"라는 말과 "우리의 AI 지출이 통제 불능이다"라는 말이 동시에 나오는지 설명해 줍니다.

저는 매달 고객 프로젝트에서 이런 상황이 벌어지는 것을 목격합니다. 누군가 토큰 가격이 폭락했다는 기사를 읽고 자신의 비용도 낭떠러지 아래로 떨어질 것이라 가정하지만, 정작 청구서를 열어보면 정반대의 결과가 나타납니다. 이러한 혼란은 청구 오류가 아닙니다. 이는 현재 AI가 구축되는 방식의 구조적 특징이며, 일단 그 메커니즘을 이해하고 나면 놀라는 대신 그에 맞춰 계획을 세울 수 있습니다.

당신의 청구액을 낮췄어야 했던 수치

먼저 가격 폭락부터 살펴보겠습니다. 이는 정말 경이로운 수준이기 때문입니다. Stanford의 2026 AI Index에 따르면, GPT-3.5 수준의 성능을 내는 비용은 2022년 11월부터 2024년 10월 사이에 약 280배 저렴해졌으며, 100만 토큰당 약 20달러에서 약 7센트로 떨어졌습니다. 이것은 오타도 아니고 일회성 현상도 아닙니다. Epoch AI는 동일한 성능을 기준으로 연간 중앙값 약 50배의 하락을 측정했습니다. 벤처 캐피털 firm인 a16z는 동일한 추세를 연간 약 10배 정도로 더 보수적으로 잡고 있지만, 이는 PC 시대의 컴퓨팅 비용 하락이나 닷컴 붐 당시의 대역폭(bandwidth) 하락 속도보다 여전히 빠르다고 지적합니다.

프런티어 기업들도 공개적으로 동일한 행보를 보였습니다. Anthropic이 2025년 11월 Claude Opus 4.5를 출시했을 때, 플래그십(flagship) 가격을 입력 및 출력 토큰 100만 개당 15달러와 75달러에서 5달러와 25달러로 인하하며, 단 한 번의 출시만으로 67%의 비용 절감을 달성했습니다. 하지만 그다음 일어난 일이 사람들이 놓치는 부분입니다. Anthropic은 모델 성능이 계속 향상되는 동안 Opus 4.6, 4.7, 4.8 버전 전반에 걸쳐 해당 5달러 및 25달러 가격을 유지했습니다. 토큰당 가격은 하락을 멈췄지만 성능(capability)은 계속 상승했으며, 이는 그 자체로 일종의 가격 인하 효과를 냅니다.

이러한 현상의 대부분을 촉발한 것은 하위 계층에서의 경쟁이었습니다. DeepSeek R1은 2025년 1월, OpenAI의 o1 성능의 약 95%를 달성하면서도 토큰 100만 개당 55센트라는 가격으로 등장했고, 주요 연구소들은 긴급한 가격 인하 조치로 대응했습니다. 2026년 중반에 이르러 가격 하한선은 놀라운 수준에 도달했습니다. OpenAI의 GPT-5.4-nano는 100만 토큰당 입력 20센트, 출력 1.25달러로 구동됩니다. 직접 호스팅할 수 있는 오픈 웨이트 (open-weights) 모델인 DeepSeek V4 Pro는 입력 가격이 44센트 근처에 형성되어 있습니다. Google의 Gemini 3.5 Flash는 에이전트 (agent) 벤치마크에서 이전 세대의 Pro 티어를 능가하면서도 가격은 1.50달러와 9달러 수준입니다. 서류상으로만 보면, 지능을 대여하는 비용이 이토록 저렴했던 적은 없었습니다.

그런데 왜 청구액은 오히려 늘어났는가

여기에 명확하게 명시된 역설이 있습니다. 토큰당 가격은 수백 배 하락했지만, 한 추정치에 따르면 동일한 기간 동안 평균 기업용 AI 청구액은 여전히 300% 이상 증가했습니다. 저는 해당 지출 수치의 정확한 규모를 절대적인 진리라기보다는 지표로서 다루고 있습니다. 왜냐하면 이는 2차 분석에서 나온 결과이기 때문입니다. 하지만 그 방향성만큼은 어디에서나 확인되며, 그 이유는 우연이 아닌 구조적인 문제입니다.

저렴해진 토큰은 절약되는 것이 아니라 더 많이 소비됩니다. 당신이 구매하고 있는 대상의 형태가 변한 것입니다. 2023년에는 전형적인 상호작용이 하나의 프롬프트(prompt)와 하나의 답변, 즉 몇 천 개의 토큰과 한 번의 모델 호출(model call)로 이루어졌습니다. 2026년에는 동일한 비즈니스 결과물을 얻기 위해 에이전트(agent)가 단일 사용자 작업을 수행하면서 10회에서 20회 사이의 모델 호출을 발생시킵니다. 에이전트는 계획을 세우고, 도구(tool)를 호출하며, 결과를 읽고, 다시 계획을 세우고, 자신의 작업을 검토하며, 커밋 메시지(commit message)를 작성합니다. 검색 증강 생성 (RAG, Retrieval-augmented generation)은 참조 텍스트를 3~5배 더 많이 채워 넣음으로써 이러한 각 호출의 컨텍스트(context)를 팽창시킵니다. 그리고 에이전트는 밤에 퇴근하지 않습니다. 모니터링 에이전트와 상시 가동되는 어시스턴트(assistant)는 누군가 지켜보든 아니든 24시간 내내 비용을 청구합니다.

결과적으로 단위당 비용은 280배 저렴해졌지만, 작업당 단위 수는 그보다 더 많이 증가했습니다. 이는 컴퓨팅 분야의 모든 효율성 향상이 따라왔던 것과 동일한 패턴입니다. 저렴해진 저장 장치(storage)는 데이터 센터의 규모를 줄이지 않았고, 오히려 어디에서나 비디오를 볼 수 있게 만들었습니다. 저렴해진 대역폭(bandwidth)은 일반인의 인터넷 요금을 낮추지 않았고, 스트리밍(streaming) 시대를 열었습니다. 저렴해진 지능(intelligence)은 AI 지출을 줄이는 것이 아니라 에이전트를 경제적으로 가능하게 만들고 있으며, 에이전트는 굶주려 있습니다. API 기반으로 제품을 운영하는 누구에게나 중요한 지점은 바로 이것입니다. 어제 1센트가 들던 워크로드(workload)가 오늘은 15센트가 드는 루프(loop)가 되었으며, 그 루프가 바로 제품을 훌륭하게 만드는 요소라는 점입니다.

무제한 시대가 막 끝났다

이 전환점을 나타내는 단 하나의 사건을 꼽으라면, 그것은 GitHub Copilot입니다. 2026년 6월 1일, GitHub는 모든 Copilot 요금제를 사용량 기반 과금(usage-based billing) 방식으로 전환했습니다. 프리미엄 요청 단위(request units)는 각 모델의 공시된 요율에 따라 입력, 출력, 캐시된 토큰(cached tokens)을 기준으로 측정되는 개당 1센트 가격의 AI 크레딧(AI Credits)으로 대체되었습니다. 초과 수요를 흡수하던 저렴한 폴백 모델(fallback model)은 사라졌습니다. 크레딧이 소진되면 예산을 설정하거나 사용을 중단해야 합니다.

GitHub이 제시한 이유는 이러한 전체적인 변화에 대해 누군가가 작성한 문장 중 가장 명확합니다. 에이전트(agents)와 하위 에이전트(subagents)가 등장함에 따라, 이 회사는 "이제 몇 번의 요청만으로도 플랜 가격을 초과하는 비용이 발생하는 것이 일반적입니다"라고 밝혔습니다. 여러분의 제품을 염두에 두고 이 문장을 다시 읽어보십시오. 정액제 월간 구독은 사용자당 대략적으로 예측 가능한 작업량을 가정합니다. 하지만 에이전트 기반 소프트웨어(Agentic software)는 그 가정을 깨뜨립니다. 왜냐하면 어려운 문제에 에이전트를 투입한 의욕적인 사용자 한 명이 단 한 오후 만에 한 달 치 마진을 태워버릴 수 있기 때문입니다.

이러한 API를 기반으로 구축하는 모든 이들은 이제 GitHub이 공식화한 세상에 살고 있습니다. 제공업체들은 가격을 단기 컨텍스트(short-context)와 장기 컨텍스트(long-context) 계층으로 나눕니다. 검색 및 컴퓨터 사용(computer use)에 대해 도구 호출(tool call)당 비용을 부과합니다. 기본 요율의 2.5배로 우선 순위 경로(priority lanes)를 판매하며, 프롬프트를 재사용하는 아키텍처에 보상하기 위해 캐시된 입력(cached-input) 할인을 최대 90%까지 제공합니다. 정액제 방식의 무제한 플랜은 호출이 곧 호출이었던 시대의 산물이었습니다. 그 시대는 저물고 있으며, 자신의 AI 제품 가격을 여전히 그 시대인 것처럼 책정하는 것은 가장 헤비한 사용자들에게 보조금을 지급하며 깨어나는 것과 같습니다.

오픈 웨이트(Open Weights)의 추격, 그리고 변화하는 계산법

경제 구조를 재편하는 두 번째 동력은 저렴한 옵션이 진정으로 좋아졌다는 점입니다. 지난 3년 중 대부분의 기간 동안 "오픈 웨이트(open-weights)"는 "눈을 가늘게 뜨고 보면 거의 비슷하다"는 의미였습니다. 하지만 최상위권에서는 더 이상 그렇지 않습니다. 2026년 4월 Artificial Analysis의 지능 벤치마크(intelligence benchmark)에서, 최고의 오픈 모델들은 가장 강력한 폐쇄형 플래그십(closed flagship) 모델의 60점 대비 약 54점을 기록하며, 세대 차이가 아닌 불과 몇 점 차이의 격차를 보였습니다. 지능 대비 가격(intelligence-versus-price)의 최전선에 있는 13개 모델 중 9개가 오픈 웨이트 모델입니다. 스탠퍼드(Stanford)의 동일한 지표에 따르면, 2026년 3월 기준 미국의 최상위 모델과 중국의 최상위 모델 간의 격차는 2.7%로, 2023년의 17~31포인트에서 크게 줄어들었습니다.

이것이 실질적으로 의미하는 바는, 이제 더 이상 제대로 작동하는 비싼 모델과 작동하지 않는 무료 모델 사이에서 선택할 필요가 없다는 것입니다. 여러분은 곡선을 따라 선택하게 되며, 그 곡선의 대부분은 이제 사용 가능한 수준입니다. DeepSeek V4와 같은 모델은 100만 토큰의 컨텍스트 (Context)를 제공하며, 최첨단 (Frontier) 모델 가격의 극히 일부로 구동할 수 있고, 자체 인프라 내에 셀프 호스팅 (Self-hosted)할 수 있습니다. 전략적 질문은 "좋은 모델을 감당할 여력이 있는가"에서 "이 특정 작업에, 이 규모에서, 이러한 개인정보 보호 규칙 하에 어떤 좋은 모델이 적합한가"로 바뀌었습니다.

이 마지막 절은 다른 대부분의 경우보다 여기서 더 중요합니다. 고객 데이터를 처리하는 EU의 기업에게, 자체 서버나 프라이빗 클라우드 (Private cloud) 내에서 유능한 모델을 실행할 수 있는 능력은 단순한 비용 결정이 아니라 컴플라이언스 (Compliance, 규제 준수)의 문제입니다. 규제 대상 데이터를 제3자 API로 전송하는 것이 대안일 때, 셀프 호스팅 AI 서버의 비용 계산은 매우 다르게 보이며, 이를 실행 가능하게 만드는 모델들은 이제 트레이드오프 (Tradeoff)가 이론적인 수준이 아닌 실질적인 수준이 될 만큼 충분히 훌륭합니다.

핵심은 각 작업에 맞는 올바른 모델을 사용하는 것입니다

더 저렴해졌지만 더 많이 소비하는 토큰 (Tokens)과 사용 가능한 모델들의 풍부한 라인업이라는 두 가지 힘을 결합하면, 승리하는 전략은 단일 선택이 아니라 아키텍처 (Architecture)가 됩니다. 실무자들이 계속해서 수렴하고 있는 패턴은 캐스케이드 (Cascade) 방식이며, 이는 설명하기 매우 간단합니다. 예측 가능하고 양이 많은 80~90%의 작업은 소형 모델, 오픈 소스 모델, 또는 온디바이스 (On-device) 모델로 보냅니다. 그리고 실제로 필요한 까다로운 나머지 부분(Hard tail)을 위해 비싼 최첨단 (Frontier) 모델을 남겨둡니다. 이를 잘 수행하면, 최첨단 모델의 추론 (Reasoning) 능력을 정당화할 수 있는 사례에는 그대로 유지하면서 대부분의 비용 절감을 달성할 수 있습니다.

그 경계선은 화려함이 아니라 작업의 형태 (task shape)에 있습니다. 분류 (Classification), 추출 (Extraction), 라우팅 (Routing), 그리고 짧은 요약 (Short summaries)은 현재 소형 모델들이 정확히 잘 해내는 영역입니다. Microsoft의 Phi-4-mini는 8GB의 메모리 내에서 작동하면서도 구조화된 추출 (Structured extraction) 작업에서 훨씬 더 큰 모델과 대등한 품질을 보여줍니다. Google의 Gemma 4 edge 변체들은 멀티모달 (Multimodal) 기능을 갖추고 있으며 스마트폰에서 실행됩니다. 이것들은 장난감이 아니라, 80%의 작업에 적합한 도구입니다. 프론티어 모델 (Frontier model)은 입력값이 광범위하고 예측 불가능하며 80%의 정확도로는 충분하지 않은 다단계 추론 (Multi-step reasoning), 긴 문서 합성 (Long-document synthesis), 그리고 개방형 에이전트 작업 (Open-ended agent work)에서 그 가격의 가치를 증명합니다.

이것이 바로 제가 비용 뉴스에 대한 두 가지 흔한 반응을 경계하는 이유이기도 합니다. 첫 번째는 "가격이 더 떨어질 때까지 기다리자"는 것인데, 이는 역설을 완전히 잘못 해석한 것입니다. 왜냐하면 여러분의 청구액은 단일 호출의 가격이 아니라, 여러분의 설계가 얼마나 많은 호출을 수행하느냐에 의해 결정되기 때문입니다. 두 번째는 "안전하게 모든 것에 가장 비싼 모델을 사용하자"는 것인데, 이는 품질의 향상 없이 규모가 커짐에 따라 2센트짜리 작업을 20센트짜리 작업으로 만드는 방식입니다. 핵심적인 규율은 모델을 작업에 맞추는 것이며, 이는 모델 선택을 브랜드 충성도가 아닌 회복 탄력성 결정으로 취급하는 것과 동일한 본능입니다. 각 단계에 적합한 모델을 선택하고, 처음부터 미터링 (Metering)과 라우팅 (Routing)을 구축하는 에이전시는 결국 비용을 낮추는 동시에, 한 제공업체가 약관을 변경하더라도 시스템이 무너지지 않도록 만들 수 있습니다.

이것이 실제로 의미하는 것

지능의 비용은 계속해서 하락할 것이고, 여러분의 AI 청구액은 여전히 실제 예산 항목(line item)으로 남을 것입니다. 이 두 가지는 동시에 성립할 수 있습니다. 이것은 해결해야 할 모순이 아니라, 설계 단계에서 고려해야 할 운영 조건입니다. 이를 내재화한 팀은 예산 상한선(budget caps), 계층적 라우팅(cascade routing), 그리고 어떤 단계에 어떤 모델이 적합한지에 대한 명확한 시각을 갖춘 에이전트형 제품(agentic products)을 구축할 것입니다. 기술이 비용을 고민하지 않아도 될 만큼 저렴해지기를 기다리는 팀은 계속해서 청구서에 놀라게 될 것입니다. 왜냐하면 기술은 이미 저렴해졌으며, 그 놀라움은 구조적인 문제이기 때문입니다.

2026년 하반기에 대한 저의 예측은, 현재의 "데이터베이스 선택"이 그러하듯 "모델 전략(model strategy)"이 모든 진지한 AI 구축의 일반적인 부분이 될 것이며, "래퍼 세금(wrapper-tax)"에 대한 논의가 거세질 것이라는 점입니다. 고객이 자신의 토큰 사용량이 귀하에게 2달러의 비용을 발생시킨다는 것을 알게 될 때, 단일 24달러 요금제는 마진(markup)처럼 보이기 시작할 것입니다. 살아남는 제품은 자신이 추가하는 가치와 통과시키는 추론(inference)을 분리해내는 제품이 될 것입니다. 저렴한 모델의 시대가 비용을 무의미하게 만든 것은 아닙니다. 그것은 비용을 단순히 조회하는 가격에서, 여러분이 설계해야 하는 결정 사항으로 옮겨 놓았습니다. 그리고 여러분이 이를 실제로 하나의 결정 사항으로 다루기만 한다면, 이는 훨씬 더 나은 문제입니다.

작성자: Matthias Meyer (StudioMeyer 소속). StudioMeyer는 마요르카에 위치한 웹 및 AI 에이전시로, 중소기업을 위한 MCP 서버, 에이전트 군단(agent fleets) 및 AI 제품을 구축하고 있습니다. 이 기사는 StudioMeyer 블로그에 원래 게시되었습니다.