AI 및 클라우드 비용

AI는 비용 문제를 안고 있습니다. 앞으로 나타날 해결책은 우리가 예상하는 것보다 더 단순할 것입니다.

많은 기업이 높은 AI 비용으로 인해 어려움을 겪고 있습니다. Uber는 단 4개월 만에 일 년 치 AI 예산을 모두 소진했으며, Microsoft, Salesforce, Github는 직원들의 AI 지출을 줄이기 위한 조치를 취하고 있습니다.

반면에, AI는 많은 프로그래밍 작업을 매우 쉽게 만들어주고 있으며, 데이터 해석, 아름다운 슬라이드 제작, 앱 및 웹사이트 디자인과 같은 다른 영역에서도 계속해서 도움을 주고 있습니다. 현재 대형 AI 연구소들은 우리가 프런티어 모델 (Frontier models)이라고 부르는 모델들을 보유하고 있으며, 이 모델들은 매우 다양한 작업에서 탁월한 성능을 발휘합니다. 프런티어 AI 연구소들은 자체적으로 연구와 호스팅을 모두 수행하고 있기 때문에, 해당 모델들의 비용이 가장 높습니다. 예를 들어, GPT 5.5는 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 30달러의 비용이 듭니다. 이는 OpenRouter에 따르면 현재 사용 가능한 모델 중 가장 비용이 많이 드는 모델입니다. 예를 들어, 오늘 오후에 이 모델을 사용하여 50개 파일에 걸쳐 Typescript 타입 수정 작업을 수행하는 데 54달러가 들었습니다.

모델 성능의 정체 (Model performance plateau), 오픈 웨이트 모델 (Open weight model) 출시, 칩 및 모델의 개선, 제로 전환 비용 (Zero switching costs) 및 로컬 모델 (Local models)은 AI 연구소들이 현재 요구하고 있는 높은 가격을 유지하지 못할 수도 있는 이유들입니다.

모델 성능의 정체 (Model performance plateau)

최근 모델이 출시될 때마다 개선되는 모습을 보고 있지만, 그 개선 폭이 점점 작아지고 있다는 점은 명확합니다. 완전히 새로운 돌파구가 발명되지 않는 한, 현재의 학습 (Learning) 및 추론 (Inference) 능력은 확장성에 한계가 있습니다. 학습 데이터 (Training data) 문제도 있습니다. 대부분의 AI 연구소는 모델 학습을 위해 디지털 및 인쇄 매체에서 사용 가능한 거의 모든 데이터를 이미 흡수했을 가능성이 높습니다. 학습 데이터셋을 개선하는 것은 매우 어려운 일이 될 것입니다.

이는 더 나은 성능을 위해 모델 가격이 계속 상승해 온 추세가 지속되기 어려울 것임을 의미합니다. 우리는 Claude Opus 4.8의 비용이 Claude Opus 4.7과 동일한 사례를 통해 그 증거를 보았습니다. 모델의 비약적인 발전이 멈추고 학습 데이터와 방법론이 유사해지면, 경쟁으로 인해 모델 가격은 하락할 가능성이 높습니다.

오픈 웨이트 모델 (Open weight models)

OpenAI는 2022년 ChatGPT를 출시했을 때 압도적인 격차로 앞서 나갔지만, 그 격차는 서서히 줄어들고 있으며 우리는 Anthropic이 2025-26년에 정상을 차지하는 것을 목격했습니다. 이제 오픈 웨이트 모델 (open-weight model)인 GLM-5.2와 같은 모델은 코딩 벤치마크에서 GPT와 Opus를 능가합니다. 이 모델은 GPT 5.5에 비해 1/10 수준의 비용을 가집니다.

여기서 일어나고 있는 현상은 선도적인 AI 연구소들이 추론 (inference) 비용뿐만 아니라 모델 아키텍처 (model architecture), 학습 데이터 수집 및 큐레이션 (curation), 모델 학습 비용 (수천만 달러에서 수억 달러에 달할 수 있음), 직원 급여 지급 및 마케팅 비용 회수를 위해 비용을 청구하고 있다는 점입니다.

반면, 일단 오픈 웨이트 모델이 출시되면 어떤 추론 제공업체라도 이를 쉽게 호스팅하고 추론 비용에 약간의 마진을 붙여 제공할 수 있습니다. 이는 프런티어 AI 연구소 (frontier AI lab)를 운영하는 것보다 훨씬 저렴하다는 것을 증명합니다.

칩 및 모델 개선 (Chip and model improvements)

Cerebras, Groq, Google 및 기타 많은 기업들은 AI에 전용 실리콘 (silicon)이 필요하며 일반적인 GPU로는 충분하지 않다는 것을 깨달았습니다. 특수 칩은 설계 비용이 매우 많이 들지만, 일단 아키텍처가 준비되면 수백만 개를 제작하는 것은 쉬우며 추론 비용은 훨씬 저렴해집니다. 예를 들어, TPU는 Nvidia H100 GPU보다 30-70% 더 저렴할 수 있습니다. 이러한 발전은 계속될 것이며 토큰당 가격을 계속해서 낮출 것입니다.

모델 아키텍처 (model architecture) 또한 진화하고 있습니다. 우리는 캐싱 (caching)을 기본적인 개선 사항으로 보았으며, 이제 MoE 모델 및 기타 접근 방식들이 동일한 정확도 수준을 유지하면서 모델을 더 빠르게 만들고 있습니다.

제로 전환 비용 (Zero switching costs)

Windows OS, MS Office, Adobe Suite와 같은 전통적인 소프트웨어(Traditional Software)나 Salesforce, Hubspot, Figma와 같은 SaaS는 AI 모델에는 없는 매우 중요한 해자(Moat)를 가지고 있었습니다. 구축된 모든 소프트웨어는 서로 대체가 불가능했습니다. CRM을 단 하루 만에 교체할 수는 없었으며, 수개월이 걸렸습니다.

더 많은 AI 연구소(AI labs)가 이 분야에 진입하고 더 많은 오픈 웨이트 (Open weight) 모델을 사용할 수 있게 되면, 이 요소가 매우 빠른 가격 폭락을 일으키는 원인이 될 것입니다. OpenRouter.ai와 같은 AI 게이트웨이 (AI gateway) 제공업체들은 모델을 전환하는 것을 매우 쉽게 만들고 있습니다. 이는 몇 초 만에 일어날 수 있으며, 실제로 우리는 실시간으로 제공업체를 변경하도록 프로그래밍할 수도 있습니다. 전환 비용 제로 (Zero switching costs)는 더 나은 모델이 등장했을 때 소비자가 시간 투자 없이 즉시 해당 모델로 전환할 수 있음을 의미합니다.

로컬 모델 (Local models)

마지막으로, 그리고 사실 가장 중요한 요소는 사용자가 로컬 모델 (Local models)을 실행할 수 있는 능력입니다. 지금까지 거의 모든 사람이 클라우드 호스팅 (Cloud-hosted) 모델을 사용해 왔으며, 로컬 모델은 배포하기에 너무 크거나 작동하기에 너무 느렸습니다. 칩 (Chips) 기술의 발전과 함께 이는 4~5년 안에 변화할 것입니다. 새로운 칩들은 모델을 로컬에서 실행할 것이며, RAM 가격의 거의 확실한 폭락은 컴퓨터와 스마트폰에 모델을 배포하는 것을 쉽게 만들 것입니다. 저는 대부분의 운영 체제 (Operating systems)가 모델을 배포하는 방법을 제공할 것이며, 로컬에서 실행되는 앱들이 모델에 연결할 수 있도록 인터페이스도 제공할 것이라고 예측합니다.

이런 일이 발생하면, 클라우드 모델은 가장 복잡한 작업에만 사용될 것이며, 코드 탭 완성 (Code tab completion), 교정 (Proofreading), 사실 확인 (Fact checking)과 같은 간단한 작업은 로컬에서 수행될 것입니다. 이는 고객들이 더 이상 월 20달러 또는 200달러의 구독료를 낼 필요가 없음을 의미합니다.

맺음말

이것은 개인적인 차원에서 작성한 저의 첫 번째 블로그이며, 여기서 몇 가지 대담한 예측을 했습니다. 이 예측들이 어떻게 실현될지는 오직 시간만이 말해줄 것이지만, 한 가지는 확실합니다. 위에 나열된 하나 이상의 이유로 인해 가격 압박이 발생할 것이며, 결국 이 모든 것은 소비자에게 이득이 될 것입니다.

현재의 LLM 비용이 지속 가능하지 않은 이유

요약

핵심 포인트